Just_Super/iStock.com

Kunstig intelligens (AI) synes bare at blive klogere og klogere. Hver iPhone lærer dit ansigt, din stemme og dine vaner bedre end den foregående, og de trusler, som AI udgør mod privatlivets fred og arbejdspladser, bliver stadig større. Stigningen afspejler hurtigere chips, flere data og bedre algoritmer. Men nogle af forbedringerne kommer fra finjusteringer snarere end fra de centrale innovationer, som deres opfindere hævder – og nogle af gevinsterne eksisterer måske slet ikke, siger Davis Blalock, der er kandidatstuderende i datalogi ved Massachusetts Institute of Technology (MIT). Blalock og hans kolleger sammenlignede snesevis af metoder til forbedring af neurale netværk – softwarearkitekturer, der løst efterligner hjernen – med hinanden. “Efter 50 artikler,” siger han, “blev det klart, at det ikke var indlysende, hvad der overhovedet var det nyeste tekniske niveau.”

Forskerne evaluerede 81 beskæringsalgoritmer, programmer, der gør neurale netværk mere effektive ved at skære unødvendige forbindelser væk. Alle hævdede overlegenhed på lidt forskellige måder. Men de blev sjældent sammenlignet ordentligt – og da forskerne forsøgte at evaluere dem side om side, var der ingen klare beviser for ydelsesforbedringer i løbet af en 10-årig periode. Resultatet, der blev præsenteret i marts på konferencen Machine Learning and Systems, overraskede Blalocks ph.d.-rådgiver, MIT-computervidenskabsmand John Guttag, som siger, at selve de ujævne sammenligninger kan forklare stagnationen. “Det er den gamle sav, ikke sandt?” Guttag sagde. “Hvis du ikke kan måle noget, er det svært at gøre det bedre.”

Forskere er ved at vågne op til tegn på vaklende fremskridt på tværs af mange delområder inden for kunstig intelligens. En metaanalyse fra 2019 af algoritmer til informationssøgning, der anvendes i søgemaskiner, konkluderede, at “højvandsmærket … faktisk blev sat i 2009”. En anden undersøgelse i 2019 reproducerede syv anbefalingssystemer med neurale netværk, af den type, der anvendes af medie-streamingtjenester. Den viste, at seks af dem ikke klarede sig bedre end meget enklere, ikke-nurale algoritmer, der var udviklet flere år tidligere, da de tidligere teknikker blev finjusteret, hvilket afslørede “fantomfremskridt” på området. I en anden artikel, der blev offentliggjort på arXiv i marts, kiggede Kevin Musgrave, der er datalog ved Cornell University, på tabsfunktioner, som er den del af en algoritme, der matematisk specificerer dens mål. Musgrave sammenlignede et dusin af dem på lige fod med hinanden i en opgave, der involverede billedgenopretning, og fandt, at i modsætning til hvad deres udviklere hævder, var nøjagtigheden ikke blevet forbedret siden 2006. “Der har altid været disse bølger af hype”, siger Musgrave.

Vækst i maskinlæringsalgoritmer kan komme fra grundlæggende ændringer i deres arkitektur, tabsfunktion eller optimeringsstrategi – hvordan de bruger feedback til at forbedre sig. Men subtile justeringer af disse kan også øge ydeevnen, siger Zico Kolter, der er datalog ved Carnegie Mellon University og studerer billedgenkendelsesmodeller, der er trænet til at være immune over for “adversarial attacks” fra en hacker. En tidlig metode til træning af modstanderangreb, kendt som PGD (projected gradient descent), hvor en model simpelthen trænes på både virkelige og vildledende eksempler, syntes at være blevet overgået af mere komplekse metoder. Men i et arXiv-papir fra februar fandt Kolter og hans kolleger, at alle metoderne præsterede omtrent det samme, når et simpelt trick blev brugt til at forbedre dem.

Gamle hunde, nye tricks

Efter beskedne justeringer præsterer gamle billedgenfindingsalgoritmer lige så godt som nye, hvilket tyder på lidt egentlig innovation.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Nøjagtighedsscore Oprindelig præstationTweaked præstation

(GRAPHIC) X. LIU/SCIENCE; (DATA) MUSGRAVE ET AL.., ARXIV: 2003.08505

“Det var meget overraskende, at dette ikke var blevet opdaget før”, siger Leslie Rice, Kolters ph.d.-studerende. Kolter siger, at hans resultater tyder på, at innovationer som PGD er svære at finde, og at de sjældent forbedres i væsentlig grad. “Det er ret tydeligt, at PGD faktisk er den helt rigtige algoritme”, siger han. “Det er det indlysende, og folk ønsker at finde alt for komplekse løsninger.”

Andre store algoritmiske fremskridt ser også ud til at have klaret tidens tandem. Et stort gennembrud kom i 1997 med en arkitektur kaldet long short-term memory (LSTM), der anvendes til sprogoversættelse. Når LSTM’er blev trænet korrekt, kunne de matche ydeevnen for formodentlig mere avancerede arkitekturer, der blev udviklet to årtier senere. Et andet gennembrud inden for maskinlæring kom i 2014 med generative adversarial networks (GAN’er), som parrer netværk i en cyklus med skabelse og kritik for at skærpe deres evne til f.eks. at producere billeder. En artikel fra 2018 rapporterede, at med tilstrækkelig beregning matcher den oprindelige GAN-metode evnerne i metoder fra senere år.

Kolter siger, at forskere er mere motiverede til at producere en ny algoritme og finjustere den, indtil den er state-of-the-art, end til at justere en eksisterende algoritme. Sidstnævnte kan virke mindre nytænkende, bemærker han, hvilket gør det “meget sværere at få en artikel ud af.”

Guttag siger, at der også er et uhensigtsmæssigt incitament for opfindere af en algoritme til grundigt at sammenligne dens ydeevne med andre – kun for at finde ud af, at deres gennembrud ikke er det, de troede, det var. “Der er en risiko ved at sammenligne for omhyggeligt.” Det er også hårdt arbejde: AI-forskere bruger forskellige datasæt, indstillingsmetoder, præstationsmålinger og baselines. “Det er bare ikke rigtig muligt at foretage alle sammenligninger fra æble til æble.”

En del af de overdrevne påstande om ydeevne kan tilskrives den eksplosive vækst på området, hvor antallet af artikler er større end antallet af erfarne bedømmere. “Meget af dette synes at være voksende smerter,” siger Blalock. Han opfordrer indtrængende bedømmere til at insistere på bedre sammenligninger med benchmarks og siger, at bedre værktøjer vil hjælpe. Tidligere i år frigav Blalocks medforfatter, MIT-forskeren Jose Gonzalez Ortiz, software kaldet ShrinkBench, der gør det lettere at sammenligne beskæringsalgoritmer.

Forskere påpeger, at selv om nye metoder ikke er grundlæggende bedre end gamle, kan de justeringer, de implementerer, anvendes på deres forfædre. Og en gang imellem vil en ny algoritme være et egentligt gennembrud. “Det er næsten som en venturekapitalportefølje,” siger Blalock, “hvor nogle af forretningerne ikke rigtig fungerer, men nogle af dem fungerer spektakulært godt.”

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.