Auffällige Fortschritte in einigen Bereichen der KI sind nicht real

Künstliche Intelligenz (KI) scheint immer schlauer zu werden. Jedes iPhone lernt Ihr Gesicht, Ihre Stimme und Ihre Gewohnheiten besser als das letzte, und die Bedrohungen, die KI für die Privatsphäre und die Arbeitsplätze darstellt, nehmen weiter zu. Diese Entwicklung ist auf schnellere Chips, mehr Daten und bessere Algorithmen zurückzuführen. Ein Teil der Verbesserungen stammt jedoch eher aus Verbesserungen als aus den von ihren Erfindern behaupteten Kerninnovationen – und ein Teil der Verbesserungen existiert möglicherweise gar nicht, sagt Davis Blalock, ein Doktorand der Informatik am Massachusetts Institute of Technology (MIT). Blalock und seine Kollegen verglichen Dutzende von Ansätzen zur Verbesserung neuronaler Netze – Software-Architekturen, die das Gehirn weitgehend imitieren. „Nach fünfzig Arbeiten“, so Blalock, „wurde klar, dass der Stand der Technik noch nicht einmal klar war.“

Die Forscher bewerteten 81 Pruning-Algorithmen, Programme, die neuronale Netze effizienter machen, indem sie nicht benötigte Verbindungen kürzen. Alle behaupteten, auf leicht unterschiedliche Weise überlegen zu sein. Aber sie wurden selten richtig verglichen – und als die Forscher versuchten, sie nebeneinander zu bewerten, gab es keine eindeutigen Hinweise auf Leistungsverbesserungen über einen Zeitraum von 10 Jahren. Das Ergebnis, das im März auf der Konferenz über maschinelles Lernen und Systeme vorgestellt wurde, überraschte Blalocks Doktorvater, den MIT-Informatiker John Guttag, der meint, dass die ungleichen Vergleiche selbst die Stagnation erklären könnten. „Es ist die alte Säge, richtig?“ Guttag sagte. „Wenn man etwas nicht messen kann, ist es schwer, es zu verbessern.“

Forscher werden auf die Anzeichen eines wackeligen Fortschritts in vielen Teilbereichen der KI aufmerksam. Eine Meta-Analyse von Algorithmen für die Informationsgewinnung in Suchmaschinen aus dem Jahr 2019 kommt zu dem Schluss, dass der „Höchststand … im Jahr 2009 erreicht wurde.“ Eine andere Studie aus dem Jahr 2019 untersuchte sieben Empfehlungssysteme mit neuronalen Netzen, wie sie von Medien-Streaming-Diensten verwendet werden. Dabei stellte sich heraus, dass sechs von ihnen wesentlich einfachere, nicht neuronale Algorithmen übertrafen, die Jahre zuvor entwickelt worden waren, als die früheren Techniken feiner abgestimmt wurden, was einen „Phantomfortschritt“ in diesem Bereich offenbart. In einer weiteren Arbeit, die im März auf arXiv veröffentlicht wurde, untersuchte Kevin Musgrave, Informatiker an der Cornell University, Verlustfunktionen, d. h. den Teil eines Algorithmus, der sein Ziel mathematisch spezifiziert. Musgrave verglich ein Dutzend dieser Funktionen bei einer Bildsuche und stellte fest, dass sich die Genauigkeit entgegen den Behauptungen ihrer Entwickler seit 2006 nicht verbessert hatte. „Es gab immer diese Hype-Wellen“, sagt Musgrave.

Gewinne bei Algorithmen des maschinellen Lernens können aus grundlegenden Änderungen ihrer Architektur, Verlustfunktion oder Optimierungsstrategie resultieren – wie sie Feedback zur Verbesserung nutzen. Aber auch subtile Änderungen können die Leistung steigern, sagt Zico Kolter, ein Informatiker an der Carnegie Mellon University, der sich mit Bilderkennungsmodellen beschäftigt, die so trainiert wurden, dass sie gegen „feindliche Angriffe“ von Hackern immun sind. Eine frühe Trainingsmethode, die als „Projected Gradient Descent“ (PGD) bekannt ist und bei der ein Modell einfach anhand echter und betrügerischer Beispiele trainiert wird, schien von komplexeren Methoden überholt worden zu sein. In einer arXiv-Veröffentlichung vom Februar stellten Kolter und seine Kollegen jedoch fest, dass alle Methoden in etwa gleich gut abschnitten, wenn sie durch einen einfachen Trick verbessert wurden.

Alte Hunde, neue Tricks

Nach bescheidenen Änderungen schneiden alte Algorithmen zur Bildsuche genauso gut ab wie neue, was auf wenig tatsächliche Innovation schließen lässt.

Kontrastiv(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Genauigkeitspunkte Ursprüngliche LeistungGebesserte Leistung

(GRAPHIC) X. LIU/SCIENCE; (DATA) MUSGRAVE ET AL., ARXIV: 2003.08505

„Das war sehr überraschend, dass dies nicht schon früher entdeckt worden war“, sagt Leslie Rice, Kolters Doktorandin. Kolter sagt, dass seine Ergebnisse darauf hindeuten, dass Innovationen wie die PID nur schwer zu finden sind und nur selten zu wesentlichen Verbesserungen führen. „Es ist ziemlich klar, dass die PID eigentlich nur der richtige Algorithmus ist“, sagt er. „

Auch andere wichtige algorithmische Fortschritte scheinen sich im Laufe der Zeit bewährt zu haben. Ein großer Durchbruch gelang 1997 mit einer Architektur namens Long Short Memory (LSTM), die bei der Sprachübersetzung eingesetzt wird. Wenn sie richtig trainiert wurden, erreichten LSTMs die Leistung von angeblich fortschrittlicheren Architekturen, die zwei Jahrzehnte später entwickelt wurden. Ein weiterer Durchbruch beim maschinellen Lernen gelang 2014 mit generativen adversen Netzwerken (GANs), die Netzwerke in einem Erstellungs- und Kritikzyklus miteinander verbinden, um ihre Fähigkeit zu verbessern, z. B. Bilder zu erzeugen. In einer Veröffentlichung aus dem Jahr 2018 wird berichtet, dass die ursprüngliche GAN-Methode bei ausreichender Rechenleistung die Fähigkeiten von Methoden aus späteren Jahren erreicht.

Kolter sagt, dass Forscher eher motiviert sind, einen neuen Algorithmus zu entwickeln und ihn zu optimieren, bis er dem neuesten Stand der Technik entspricht, als einen bestehenden zu verbessern. Letzteres kann weniger neuartig erscheinen, merkt er an, was es „viel schwieriger macht, eine Veröffentlichung zu erhalten“

Guttag sagt, dass es für die Erfinder eines Algorithmus auch einen negativen Anreiz gibt, seine Leistung gründlich mit anderen zu vergleichen – nur um dann festzustellen, dass ihr Durchbruch nicht das ist, was sie dachten, was er war. „Es besteht die Gefahr, dass man zu sorgfältig vergleicht. Es ist auch harte Arbeit: KI-Forscher verwenden unterschiedliche Datensätze, Tuning-Methoden, Leistungsmetriken und Baselines. „

Ein Teil der überzogenen Leistungsangaben kann dem explosionsartigen Wachstum des Fachgebiets zugeschrieben werden, in dem es mehr Arbeiten als erfahrene Gutachter gibt. „Vieles davon scheint auf Wachstumsschmerzen zurückzuführen zu sein“, sagt Blalock. Er fordert die Gutachter auf, auf bessere Vergleiche mit Benchmarks zu bestehen, und meint, dass bessere Instrumente helfen werden. Anfang dieses Jahres hat Blalocks Mitautor, der MIT-Forscher Jose Gonzalez Ortiz, eine Software namens ShrinkBench herausgebracht, die den Vergleich von Beschneidungsalgorithmen erleichtert.

Forscher weisen darauf hin, dass selbst wenn neue Methoden nicht grundsätzlich besser sind als alte, die von ihnen implementierten Verbesserungen auf ihre Vorgänger angewendet werden können. Und hin und wieder stellt ein neuer Algorithmus einen echten Durchbruch dar. „Es ist fast wie ein Risikokapitalportfolio“, sagt Blalock, „bei dem einige der Unternehmen nicht wirklich funktionieren, aber einige spektakulär gut.“

Alai

Alte Hunde, neue Tricks

Schreibe einen Kommentar Antworten abbrechen