Just_Super/iStock.com

Kunstmatige intelligentie (AI) lijkt alleen maar slimmer en slimmer te worden. Elke iPhone leert je gezicht, stem en gewoonten beter dan de vorige, en de bedreigingen die AI vormt voor privacy en banen blijven toenemen. De toename is het gevolg van snellere chips, meer gegevens en betere algoritmen. Maar een deel van de verbeteringen komt van kleine aanpassingen in plaats van de kerninnovaties die de uitvinders ervan claimen, en een deel van de verbeteringen bestaat misschien helemaal niet, zegt Davis Blalock, een afgestudeerde student computerwetenschappen aan het Massachusetts Institute of Technology (MIT). Blalock en zijn collega’s vergeleken tientallen benaderingen om neurale netwerken te verbeteren – software-architecturen die de hersenen losjes nabootsen. “Vijftig papers verder,” zegt hij, “werd het duidelijk dat het niet duidelijk was wat de stand van de techniek was.”

De onderzoekers evalueerden 81 pruning-algoritmen, programma’s die neurale netwerken efficiënter maken door onnodige verbindingen weg te snijden. Allen claimden superioriteit op enigszins verschillende manieren. Maar ze werden zelden goed vergeleken – en toen de onderzoekers ze naast elkaar probeerden te evalueren, was er geen duidelijk bewijs van prestatieverbeteringen over een periode van 10 jaar. Het resultaat, dat in maart werd gepresenteerd op de Machine Learning and Systems conferentie, verbaasde Blalock’s Ph.D. adviseur, MIT computerwetenschapper John Guttag, die zegt dat de ongelijke vergelijkingen zelf de stagnatie kunnen verklaren. “Het is de oude zaag, toch?” zei Guttag. “Als je iets niet kunt meten, is het moeilijk om het beter te maken.”

Onderzoekers worden wakker geschud door de tekenen van wankele vooruitgang op veel deelgebieden van AI. Een meta-analyse uit 2019 van informatiezoekalgoritmen die in zoekmachines worden gebruikt, concludeerde dat het “hoogwatermerk … eigenlijk in 2009 werd gezet.” Een andere studie in 2019 reproduceerde zeven neurale netwerkaanbevelingssystemen, van het soort dat wordt gebruikt door mediastreamingdiensten. Het bleek dat zes niet beter presteerden dan veel eenvoudigere, niet-neurale algoritmen die jaren eerder waren ontwikkeld, toen de eerdere technieken werden verfijnd, wat “fantoomvooruitgang” op het gebied onthult. In een ander artikel dat in maart op arXiv werd gepubliceerd, keek Kevin Musgrave, een computerwetenschapper aan de Cornell University, naar verliesfuncties, het deel van een algoritme dat de doelstelling wiskundig specificeert. Musgrave vergeleek er een dozijn op gelijke voet, in een taak met betrekking tot het terugvinden van afbeeldingen, en ontdekte dat, in tegenstelling tot wat de ontwikkelaars beweren, de nauwkeurigheid sinds 2006 niet was verbeterd. “Er zijn altijd van die golven van hype geweest,” zegt Musgrave.

Verbetering in machine-learning algoritmen kan komen van fundamentele veranderingen in hun architectuur, verliesfunctie, of optimalisatiestrategie-hoe ze feedback gebruiken om te verbeteren. Maar subtiele aanpassingen aan elk van deze kunnen de prestaties ook verbeteren, zegt Zico Kolter, een computerwetenschapper aan de Carnegie Mellon University die beeldherkenningsmodellen bestudeert die zijn getraind om immuun te zijn voor “adversarial attacks” door een hacker. Een vroege adversaire trainingsmethode die bekend staat als projected gradient descent (PGD), waarbij een model eenvoudigweg wordt getraind op zowel echte als bedrieglijke voorbeelden, leek te zijn voorbijgestreefd door complexere methoden. Maar in een februari arXiv paper, vonden Kolter en zijn collega’s dat alle methoden ongeveer hetzelfde presteerden wanneer een eenvoudige truc werd gebruikt om ze te verbeteren.

Old dogs, new tricks

Na bescheiden aanpassingen, presteren oude image-retrieval algoritmen net zo goed als nieuwe, wat suggereert dat er weinig werkelijke innovatie is.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Nauwkeurigheidsscore Original performanceTweaked performance

(GRAPHIC) X. LIU/SCIENCE; (DATA) MUSGRAVE ET AL., ARXIV: 2003.08505

“Dat was zeer verrassend, dat dit nog niet eerder was ontdekt,” zegt Leslie Rice, Kolter’s Ph.D. student. Kolter zegt dat zijn bevindingen suggereren dat innovaties zoals PGD moeilijk te krijgen zijn, en zelden op een substantiële manier worden verbeterd. “Het is vrij duidelijk dat PGD eigenlijk gewoon het juiste algoritme is,” zegt hij. “

Ook andere grote algoritmische vorderingen lijken de tand des tijds te hebben doorstaan. Een grote doorbraak kwam in 1997 met een architectuur die langetermijngeheugen (LSTM) wordt genoemd en wordt gebruikt bij het vertalen van talen. Indien goed getraind, evenaarden LSTM’s de prestaties van zogezegd meer geavanceerde architecturen die twee decennia later werden ontwikkeld. Een andere doorbraak op het gebied van machinaal leren kwam in 2014 met generatieve adversarial networks (GAN’s), die netwerken koppelen in een creatie-en-kritiekcyclus om hun vermogen om bijvoorbeeld afbeeldingen te produceren, aan te scherpen. Een paper uit 2018 meldde dat met genoeg rekenwerk, de oorspronkelijke GAN-methode overeenkomt met de capaciteiten van methoden uit latere jaren.

Kolter zegt dat onderzoekers meer gemotiveerd zijn om een nieuw algoritme te produceren en het te tweaken totdat het state-of-the-art is dan om een bestaand algoritme te tunen. Het laatste kan minder nieuw lijken, merkt hij op, waardoor het “veel moeilijker is om er een artikel van te krijgen.”

Guttag zegt dat er ook een ontmoediging is voor uitvinders van een algoritme om de prestaties ervan grondig te vergelijken met die van anderen – om er vervolgens achter te komen dat hun doorbraak niet is wat ze dachten dat het was. “Er is een risico om te zorgvuldig te vergelijken.” Het is ook hard werken: AI-onderzoekers gebruiken verschillende datasets, afstemmethodes, prestatiemetingen en baselines. “Het is gewoon niet echt haalbaar om alle appels met appels te vergelijken.”

Een deel van de overdreven prestatieclaims kan worden toegeschreven aan de explosieve groei van het vakgebied, waar het aantal papers groter is dan het aantal ervaren reviewers. “Veel van dit lijkt groeipijn te zijn,” zegt Blalock. Hij dringt er bij de beoordelaars op aan om betere vergelijkingen met benchmarks te eisen en zegt dat betere hulpmiddelen zullen helpen. Eerder dit jaar bracht Blalock’s co-auteur, MIT onderzoeker Jose Gonzalez Ortiz, software genaamd ShrinkBench uit die het makkelijker maakt om snoei-algoritmen te vergelijken.

Onderzoekers wijzen erop dat zelfs als nieuwe methoden niet fundamenteel beter zijn dan oude, de aanpassingen die zij implementeren kunnen worden toegepast op hun voorgangers. En eens in de zoveel tijd zal een nieuw algoritme een echte doorbraak betekenen. “Het is bijna als een durfkapitaalportefeuille,” zegt Blalock, “waar sommige van de bedrijven niet echt werken, maar sommige werken spectaculair goed.”

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.