Progresele uimitoare din unele domenii de inteligență artificială nu sunt reale

Inteligența artificială (AI) pare să devină din ce în ce mai inteligentă. Fiecare iPhone vă învață fața, vocea și obiceiurile mai bine decât ultimul, iar amenințările pe care AI le reprezintă pentru viața privată și locurile de muncă continuă să crească. Această creștere reflectă cipuri mai rapide, mai multe date și algoritmi mai buni. Însă unele dintre îmbunătățiri provin mai degrabă din ajustări decât din inovațiile de bază pe care le pretind inventatorii lor – iar unele dintre aceste câștiguri ar putea să nu existe deloc, spune Davis Blalock, student absolvent de informatică la Massachusetts Institute of Technology (MIT). Blalock și colegii săi au comparat zeci de abordări pentru îmbunătățirea rețelelor neuronale – arhitecturi software care imită vag creierul. „După 50 de lucrări”, spune el, „a devenit clar că nu era evident care era chiar stadiul actual al tehnologiei.”

Cercetătorii au evaluat 81 de algoritmi de tăiere, programe care fac rețelele neuronale mai eficiente prin tăierea conexiunilor inutile. Toți și-au revendicat superioritatea în moduri ușor diferite. Dar rareori au fost comparați în mod corespunzător – iar atunci când cercetătorii au încercat să îi evalueze unul lângă altul, nu au existat dovezi clare de îmbunătățire a performanțelor pe o perioadă de 10 ani. Rezultatul, prezentat în martie la conferința Machine Learning and Systems, l-a surprins pe consilierul de doctorat al lui Blalock, John Guttag, cercetător în informatică la MIT, care spune că însăși comparațiile inegale pot explica stagnarea. „Este vorba de vechiul fierăstrău, nu-i așa?” a spus Guttag. „Dacă nu poți măsura ceva, este greu să faci ceva mai bun.”

Cercetătorii se trezesc la semnele unui progres șubred în multe subdomenii ale inteligenței artificiale. O meta-analiză din 2019 a algoritmilor de regăsire a informațiilor utilizați în motoarele de căutare a concluzionat că „punctul culminant … a fost de fapt stabilit în 2009”. Un alt studiu din 2019 a reprodus șapte sisteme de recomandare prin rețele neuronale, de tipul celor utilizate de serviciile de streaming media. Acesta a constatat că șase dintre ele nu au reușit să depășească performanțe mult mai simple, algoritmi neuronali dezvoltați cu ani înainte, când tehnicile anterioare au fost puse la punct, dezvăluind un „progres fantomă” în acest domeniu. Într-o altă lucrare postată pe arXiv în martie, Kevin Musgrave, informatician la Universitatea Cornell, a analizat funcțiile de pierdere, partea unui algoritm care specifică matematic obiectivul său. Musgrave a comparat o duzină dintre acestea pe picior de egalitate, în cadrul unei sarcini de recuperare a imaginilor, și a constatat că, contrar celor afirmate de dezvoltatorii lor, precizia nu s-a îmbunătățit din 2006. „Întotdeauna au existat aceste valuri de hype”, spune Musgrave.

Câștigurile în algoritmii de învățare automată pot proveni din schimbări fundamentale în arhitectura lor, în funcția de pierdere sau în strategia de optimizare – cum folosesc feedback-ul pentru a se îmbunătăți. Dar modificările subtile ale oricăruia dintre acestea pot, de asemenea, să sporească performanța, spune Zico Kolter, un informatician de la Universitatea Carnegie Mellon care studiază modele de recunoaștere a imaginilor antrenate pentru a fi imune la „atacuri adverse” din partea unui hacker. O primă metodă de instruire adversă, cunoscută sub numele de projected gradient descent (PGD), în care un model este pur și simplu instruit atât pe exemple reale, cât și pe exemple înșelătoare, părea să fi fost depășită de metode mai complexe. Dar, într-o lucrare arXiv din februarie, Kolter și colegii săi au descoperit că toate metodele au avut aproximativ aceleași performanțe atunci când a fost folosit un truc simplu pentru a le îmbunătăți.

Câini vechi, trucuri noi

După modificări modeste, vechii algoritmi de recuperare a imaginilor au performanțe la fel de bune ca și cei noi, sugerând puține inovații reale.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Scurt de acuratețe Performanță originalăPerformanță modificată

(GRAFIC) X. LIU/SCIENCE; (DATE) MUSGRAVE ET AL., ARXIV: 2003.08505

„A fost foarte surprinzător faptul că acest lucru nu fusese descoperit înainte”, spune Leslie Rice, doctorandul lui Kolter. Kolter spune că descoperirile sale sugerează că inovațiile precum PGD sunt greu de obținut și sunt rareori îmbunătățite într-un mod substanțial. „Este destul de clar că PGD este de fapt doar algoritmul potrivit”, spune el. „Este un lucru evident, iar oamenii vor să găsească soluții prea complexe.”

Alte progrese algoritmice majore par, de asemenea, să fi rezistat testului timpului. Un mare progres a venit în 1997 cu o arhitectură numită memorie pe termen scurt (LSTM), folosită în traducerea limbajului. Atunci când sunt antrenate în mod corespunzător, LSTM-urile au egalat performanțele unor arhitecturi presupus mai avansate dezvoltate 2 decenii mai târziu. O altă descoperire în domeniul învățării automate a venit în 2014 cu rețelele generative adversariale (GAN), care împerechează rețelele într-un ciclu de creare și critică pentru a le perfecționa capacitatea de a produce imagini, de exemplu. O lucrare din 2018 a raportat că, cu suficient calcul, metoda GAN originală se potrivește cu abilitățile metodelor din anii următori.

Kolter spune că cercetătorii sunt mai motivați să producă un nou algoritm și să îl ajusteze până când este de ultimă generație decât să pună la punct un algoritm existent. Acesta din urmă poate părea mai puțin nou, notează el, ceea ce îl face „mult mai greu de obținut o lucrare.”

Guttag spune că există, de asemenea, o descurajare pentru inventatorii unui algoritm de a compara temeinic performanțele acestuia cu altele – doar pentru a descoperi că descoperirea lor nu este ceea ce credeau că este. „Există un risc de a compara prea atent”. Este, de asemenea, o muncă grea: Cercetătorii de inteligență artificială folosesc diferite seturi de date, metode de reglare, parametri de performanță și baze de referință. „Pur și simplu nu este cu adevărat fezabil să se facă toate comparațiile între mere.”

O parte din afirmațiile de performanță supraevaluate pot fi puse pe seama creșterii explozive a domeniului, unde lucrările sunt mai numeroase decât evaluatorii experimentați. „O mare parte dintre acestea par a fi dureri de creștere”, spune Blalock. El îi îndeamnă pe evaluatori să insiste asupra unor comparații mai bune cu standardele de referință și spune că instrumente mai bune vor fi de ajutor. La începutul acestui an, coautorul lui Blalock, cercetătorul MIT Jose Gonzalez Ortiz, a lansat un software numit ShrinkBench care facilitează compararea algoritmilor de tăiere.

Cercetătorii subliniază că, chiar dacă noile metode nu sunt în mod fundamental mai bune decât cele vechi, modificările pe care le implementează pot fi aplicate la predecesorii lor. Și, din când în când, un nou algoritm va reprezenta o adevărată descoperire. „Este aproape ca un portofoliu de capital de risc”, spune Blalock, „în care unele dintre afaceri nu prea funcționează, dar altele funcționează spectaculos de bine.”

Alai

Câini vechi, trucuri noi

Lasă un răspuns Anulează răspunsul