Durchbrechen der Konvergenzbarriere, Abfragenäherung und Textdarstellungen

Dies sind die faszinierendsten Veröffentlichungen zur KI-Forschung, die in diesem Jahr veröffentlicht wurden. Es baut am meisten auf jüngsten Errungenschaften in Künstlicher Intelligenz und Data Science. Sie ist chronologisch geordnet und enthält einen Link zu einem Artikel, der ausführlicher ist.

Durchbrechen der Konvergenzbarriere: Optimierung durch konvergente Flüsse mit fester Zeit

Beschleunigte Gradientenmethoden sind das Rückgrat groß angelegter Optimierungsprobleme, die von Daten angetrieben werden, und kommen ganz natürlich beim maschinellen Lernen und anderen Bereichen vor, die sich mit Datenanalyse befassen.

Hier stellen die Forscher ein Gradienten-basiertes Optimierungs-Framework vor, um eine Beschleunigung zu erreichen. Es basiert auf der kürzlich eingeführten Idee der Festzeitstabilität dynamischer Systeme. Die Methode scheint eine Verallgemeinerung einfacher gradientenbasierter Methoden zu sein, die so skaliert sind, dass sie in einer festen Zeit zum Optimierer konvergieren, unabhängig davon, wie das Problem zu Beginn aufgebaut ist. Die Forscher tun dies, indem sie zunächst ein zeitkontinuierliches Framework verwenden, um zeitstabile dynamische Systeme mit fester Zeit zu entwerfen. Sie stellen dann eine konsistente Diskretisierungsstrategie bereit, sodass der äquivalente zeitdiskrete Algorithmus den Optimierer in einer festen Anzahl von Iterationen verfolgen kann. Sie liefern auch eine theoretische Analyse, wie die vorgeschlagenen Gradientenströme konvergieren. Außerdem, wie gut sie mit Störungen umgehen können, die sich addieren.

Die Forscher zeigen auch, dass die Reue, die an die Konvergenzrate gebunden ist, aufgrund der festen Zeitkonvergenz immer gleich ist. Die Bedeutung der Hyperparameter ist leicht verständlich und wir können sie ändern, um die Anforderungen der gewünschten Konvergenzraten zu erfüllen. Sie vergleichen die beschleunigte Konvergenz der vorgeschlagenen Schemata mit den besten Optimierungsalgorithmen an mehreren numerischen Beispielen. Darüber hinaus gibt uns ihre Arbeit Ideen, wie wir neue Optimierungsalgorithmen entwickeln können, indem wir Flüsse in kontinuierlicher Zeit aufbrechen.

Auf dem bedingten generativen Modell basierende Prädikat-bewusste Abfragenäherung

Approximate Query Processing (AQP) zielt darauf ab, schnelle, aber “gut genug” Antworten auf teure aggregierte Abfragen zu geben, um es Benutzern zu erleichtern, große Datensätze interaktiv zu erkunden. Im Vergleich zur herkömmlichen Abfrageverarbeitung auf Datenbankclustern können kürzlich vorgeschlagene, auf maschinellem Lernen basierende AQP-Techniken eine sehr geringe Latenz bieten, da die Abfrageausführung nur Modellrückschlüsse beinhaltet.

Aber der Approximationsfehler für diese Methoden wird viel schlimmer, wenn die Anzahl der filternden Prädikate (WHERE-Klauseln) zunimmt. Um Erkenntnisse zu gewinnen, verwenden Analysten häufig Abfragen mit vielen Prädikaten. Daher ist es wichtig, den Approximationsfehler gering zu halten, wenn Analysten nicht zu falschen Schlussfolgerungen kommen wollen.

In diesem Artikel schlagen die Forscher ELECTRA vor, ein prädikatenbewusstes AQP-System, das Abfragen im Analysestil mit vielen Prädikaten und viel kleineren Annäherungsfehlern beantworten kann. ELECTRA verwendet ein bedingtes generatives Modell, das die bedingte Verteilung der Daten lernt und zur Laufzeit eine kleine (1000 Zeilen), aber repräsentative Stichprobe erstellt, auf der die Abfrage ausgeführt wird, um eine Annäherung an das Ergebnis zu erhalten. Ihre Tests mit drei realen Datensätzen und vier verschiedenen Basislinien zeigen, dass ELECTRA für viele Prädikate einen niedrigeren AQP-Fehler aufweist als Basislinien.

Deep Clustering von Textrepräsentationen für überwachungsfreies Sondieren der Syntax

Die Forscher untersuchen, wie tiefe Clustering-Textdarstellungen unüberwachten Modellen helfen können, Syntax zu verstehen und zu lernen. Da es sich um hochdimensionale Darstellungen handelt, funktionieren Methoden wie KMeans nicht sehr gut. Ihr Ansatz verändert also die Repräsentationen in einen niederdimensionalen Raum, der sich gut zum Clustern eignet, und gruppiert sie dann.

In dieser Arbeit betrachten die Forscher zwei Ideen zur Syntax: Part of Speech Induction (POSI) und Constituency Labeling (CoLab). Sie finden es interessant, dass der mehrsprachige BERT (mBERT) überraschend viel englische Grammatik kennt, vielleicht sogar so viel wie der englische BERT (EBERT). Ihr Modell kann als unbeaufsichtigte Sonde verwendet werden, um etwas zu untersuchen, das möglicherweise weniger voreingenommen ist. Sie stellen fest, dass unüberwachte Sonden im Vergleich zu überwachten Sonden von höheren Schichten profitieren. Darüber hinaus sagen die Forscher auch, dass ihre unüberwachte Sonde EBERT- und mBERT-Darstellungen in POSI auf unterschiedliche Weise verwendet. Schließlich beweisen sie, dass ihre Sonde funktioniert, indem sie zeigen, dass sie als unüberwachte Syntaxinduktionsmethode verwendet werden kann. Ihre Sonde funktioniert gut für beide syntaktischen Formen, da sie die Darstellung der Eingaben ändert.

Darüber hinaus sagen die Forscher, dass ihre Sonde bei englischen POSI mit 45 Tags gut abgeschnitten hat, bei POSI mit 12 Tags in zehn Sprachen auf dem neuesten Stand war und sich bei CoLab gut bewährt hat. Sie führen auch Zero-Shot-Syntaxinduktion in Sprachen mit wenigen Ressourcen durch und sagen, dass die Ergebnisse vielversprechend sind.

Newsletter

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.