Just_Super/iStock.com

Konstnärlig intelligens (AI) tycks bara bli smartare och smartare. Varje iPhone lär sig ditt ansikte, din röst och dina vanor bättre än den förra, och hoten som AI utgör mot integritet och jobb fortsätter att växa. Ökningen återspeglar snabbare chip, mer data och bättre algoritmer. Men en del av förbättringarna kommer från finjusteringar snarare än de centrala innovationer som uppfinnarna hävdar – och en del av vinsterna kanske inte existerar alls, säger Davis Blalock, doktorand i datavetenskap vid Massachusetts Institute of Technology (MIT). Blalock och hans kollegor jämförde dussintals metoder för att förbättra neurala nätverk – mjukvaruarkitekturer som fritt efterliknar hjärnan. ”Efter femtio artiklar”, säger han, ”stod det klart att det inte var uppenbart vad som var det senaste inom området.”

Forskarna utvärderade 81 beskärningsalgoritmer, program som gör neurala nätverk effektivare genom att skära bort obehövliga kopplingar. Alla hävdade överlägsenhet på lite olika sätt. Men de jämfördes sällan ordentligt – och när forskarna försökte utvärdera dem sida vid sida fanns det inga tydliga bevis för prestandaförbättringar under en tioårsperiod. Resultatet, som presenterades i mars vid konferensen Machine Learning and Systems, överraskade Blalocks doktorandrådgivare, MIT-datavetaren John Guttag, som säger att de ojämna jämförelserna i sig kan förklara stagnationen. ”Det är den gamla sågen, eller hur?” Guttag sade. ”Om du inte kan mäta något är det svårt att göra det bättre.”

Forskare håller på att få upp ögonen för tecknen på vacklande framsteg inom många delområden av artificiell intelligens. I en metaanalys från 2019 av algoritmer för informationssökning som används i sökmotorer drogs slutsatsen att ”högvattenmärket … faktiskt sattes 2009”. En annan studie 2019 återgav sju rekommendationssystem med neurala nätverk, av den typ som används av streamingtjänster för media. Den visade att sex av dem misslyckades med att överträffa mycket enklare, icke-neurala algoritmer som utvecklats flera år tidigare, när de tidigare teknikerna finjusterades, vilket avslöjade ”fantomframsteg” på området. I en annan artikel som publicerades på arXiv i mars tog Kevin Musgrave, datavetare vid Cornell University, en titt på förlustfunktioner, den del av en algoritm som matematiskt specificerar dess mål. Musgrave jämförde ett dussintal av dem på lika villkor i en uppgift som gällde bildsökning och fann att, i motsats till vad deras utvecklare hävdar, hade noggrannheten inte förbättrats sedan 2006. ”Det har alltid funnits dessa vågor av hype”, säger Musgrave.

Förbättringar i maskininlärningsalgoritmer kan komma från grundläggande förändringar i deras arkitektur, förlustfunktion eller optimeringsstrategi – hur de använder återkoppling för att förbättras. Men subtila justeringar av någon av dessa kan också öka prestandan, säger Zico Kolter, en datavetare vid Carnegie Mellon University som studerar modeller för bildigenkänning som tränats för att vara immuna mot ”adversarial attacks” från en hackare. En tidig metod för utbildning av motståndare som kallas PGD (projected gradient descent), där en modell helt enkelt tränas på både riktiga och bedrägliga exempel, tycktes ha överträffats av mer komplexa metoder. Men i en arXiv-artikel från februari fann Kolter och hans kollegor att alla metoder presterade ungefär lika bra när ett enkelt knep användes för att förbättra dem.

Gamla hundar, nya knep

Efter blygsamma ändringar presterar gamla algoritmer för bildåtervinning lika bra som nya, vilket tyder på att det inte finns några egentliga innovationer.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Noggrannhetspoäng Ursprunglig prestandaTweaked prestanda

(GRAFIK) X. LIU/SCIENCE; (DATA) MUSGRAVE ET AL.., ARXIV: 2003.08505

”Det var mycket överraskande att detta inte hade upptäckts tidigare”, säger Leslie Rice, Kolters doktorand. Kolter säger att hans resultat tyder på att innovationer som PGD är svåra att få till och att de sällan förbättras på ett väsentligt sätt. ”Det är ganska tydligt att PGD faktiskt är precis den rätta algoritmen”, säger han. ”Det är det självklara, och folk vill hitta alltför komplexa lösningar.”

Andra stora algoritmiska framsteg verkar också ha klarat tidens tand. Ett stort genombrott kom 1997 med en arkitektur som kallas LSTM (Long Short Term Memory) och som används vid översättning av språk. När LSTM:erna är korrekt tränade motsvarar de prestandan hos mer avancerade arkitekturer som utvecklades två decennier senare. Ett annat genombrott inom maskininlärning kom 2014 med generativa adversariella nätverk (GAN), som kopplar ihop nätverk i en cykel av skapande och kritiserande för att skärpa deras förmåga att till exempel producera bilder. I en artikel från 2018 rapporterades att med tillräcklig beräkning matchar den ursprungliga GAN-metoden förmågorna hos metoder från senare år.

Kolter säger att forskare är mer motiverade att ta fram en ny algoritm och finjustera den tills den är toppmodern än att finjustera en befintlig algoritm. Det senare kan verka mindre nytt, konstaterar han, vilket gör det ”mycket svårare att få en artikel från.”

Guttag säger att det också finns ett avskräckande incitament för uppfinnare av en algoritm att grundligt jämföra dess prestanda med andra – bara för att upptäcka att deras genombrott inte är vad de trodde att det var. ”Det finns en risk med att jämföra för noggrant.” Det är också ett hårt arbete: AI-forskare använder olika datamängder, inställningsmetoder, prestandamått och baslinjer. ”Det är helt enkelt inte möjligt att göra alla jämförelser från äpple till äpple.”

En del av de överdrivna prestandapåståendena kan hänföras till den explosionsartade tillväxten på området, där det finns fler artiklar än erfarna granskare. ”Mycket av det här verkar vara en växande smärta”, säger Blalock. Han uppmanar granskarna att insistera på bättre jämförelser med riktmärken och säger att bättre verktyg kommer att vara till hjälp. Tidigare i år släppte Blalocks medförfattare, MIT-forskaren Jose Gonzalez Ortiz, programvaran ShrinkBench som gör det lättare att jämföra beskärningsalgoritmer.

Forskare påpekar att även om nya metoder inte i grunden är bättre än gamla, kan de justeringar som de genomför tillämpas på deras föregångare. Och då och då kommer en ny algoritm att vara ett verkligt genombrott. ”Det är nästan som en portfölj med riskkapital”, säger Blalock, ”där en del av verksamheterna inte riktigt fungerar, men en del fungerar spektakulärt bra.”

Lämna ett svar

Din e-postadress kommer inte publiceras.