Sztuczna inteligencja (AI) po prostu wydaje się być coraz mądrzejsza. Każdy iPhone uczy się Twojej twarzy, głosu i nawyków lepiej niż poprzedni, a zagrożenia, jakie AI stwarza dla prywatności i miejsc pracy, wciąż rosną. Ten wzrost odzwierciedla szybsze chipy, więcej danych i lepsze algorytmy. Ale niektóre z tych ulepszeń pochodzą raczej z poprawek niż z podstawowych innowacji, o których mówią ich wynalazcy – a niektóre z tych korzyści mogą w ogóle nie istnieć, mówi Davis Blalock, student informatyki na Massachusetts Institute of Technology (MIT). Blalock i jego koledzy porównali dziesiątki podejść do ulepszania sieci neuronowych – architektur oprogramowania, które luźno naśladują mózg. „Pięćdziesiąt prac”, mówi, „stało się jasne, że nie było oczywiste, jaki jest stan wiedzy na ten temat.”
Badacze ocenili 81 algorytmów przycinania, programów, które sprawiają, że sieci neuronowe są bardziej wydajne poprzez przycinanie niepotrzebnych połączeń. Wszystkie twierdziły, że są lepsze na nieco inne sposoby. Ale rzadko były one porównywane prawidłowo – a kiedy badacze próbowali ocenić je obok siebie, nie było wyraźnych dowodów na poprawę wydajności w okresie 10 lat. Wynik, przedstawiony w marcu na konferencji Machine Learning and Systems, zaskoczył doradcę doktoranta Blalocka, informatyka MIT Johna Guttaga, który twierdzi, że nierówne porównania same w sobie mogą wyjaśniać stagnację. „To stara piła, prawda?” powiedział Guttag. „Jeśli nie możesz czegoś zmierzyć, trudno jest uczynić to lepszym.”
Badacze budzą się na oznaki chwiejnego postępu w wielu subpolach AI. Metaanaliza z 2019 r. dotycząca algorytmów wyszukiwania informacji używanych w wyszukiwarkach stwierdziła, że „znak wysokiej wody … został w rzeczywistości ustalony w 2009 r.”. Inne badanie z 2019 r. odtworzyło siedem systemów rekomendacji sieci neuronowych, w rodzaju używanych przez usługi strumieniowego przesyłania mediów. Stwierdzono, że sześć nie zdołało przewyższyć znacznie prostszych, nieneuronowych algorytmów opracowanych lata wcześniej, kiedy wcześniejsze techniki zostały dostrojone, ujawniając „fantomowy postęp” w tej dziedzinie. W innej pracy, opublikowanej na arXiv w marcu, Kevin Musgrave, informatyk z Cornell University, przyjrzał się funkcjom strat, czyli tej części algorytmu, która matematycznie określa jego cel. Musgrave porównał kilkanaście z nich na równi, w zadaniu związanym z wyszukiwaniem obrazów, i stwierdził, że wbrew zapewnieniom ich twórców, dokładność nie poprawiła się od 2006 roku. „Zawsze były te fale szumu,” mówi Musgrave.
Zyski w algorytmach uczenia maszynowego mogą pochodzić z fundamentalnych zmian w ich architekturze, funkcji straty lub strategii optymalizacji – jak wykorzystują one informacje zwrotne do poprawy. Ale subtelne poprawki do każdego z nich może również zwiększyć wydajność, mówi Zico Kolter, informatyk z Carnegie Mellon University, który bada modele rozpoznawania obrazu przeszkoleni, aby być odporne na „ataki adwersarza” przez hakera. Wczesna metoda szkolenia przeciwników, znana jako projected gradient descent (PGD), w której model jest po prostu trenowany na prawdziwych i fałszywych przykładach, wydawała się być prześcignięta przez bardziej złożone metody. Jednak w lutowym artykule arXiv Kolter i jego koledzy odkryli, że wszystkie te metody działały podobnie, gdy do ich ulepszenia użyto prostej sztuczki.
„To było bardzo zaskakujące, że nie zostało to odkryte wcześniej”, mówi Leslie Rice, doktorantka Koltera. Kolter mówi, że jego odkrycia sugerują, że innowacje takie jak GTP są trudne do zdobycia i rzadko są ulepszane w znaczący sposób. „Jest całkiem jasne, że GTP jest właściwie tylko właściwym algorytmem”, mówi. „To oczywista rzecz, a ludzie chcą znaleźć zbyt skomplikowane rozwiązania.”
Inne główne postępy algorytmiczne również zdają się wytrzymywać próbę czasu. Wielki przełom nastąpił w 1997 roku dzięki architekturze zwanej długą pamięcią krótkotrwałą (LSTM), wykorzystywanej w tłumaczeniach językowych. Po odpowiednim treningu LSTM dorównały wydajnością rzekomo bardziej zaawansowanym architekturom opracowanym dwie dekady później. Kolejny przełom w uczeniu maszynowym nastąpił w 2014 r. dzięki generatywnym sieciom przeciwstawnym (GAN), które łączą sieci w pary w cyklu tworzenia i krytyki, aby wyostrzyć ich zdolność do tworzenia np. obrazów. Praca z 2018 r. donosi, że przy wystarczającej ilości obliczeń oryginalna metoda GAN dorównuje zdolnościom metod z późniejszych lat.
Kolter mówi, że badacze są bardziej zmotywowani do tworzenia nowego algorytmu i poprawiania go, dopóki nie stanie się najnowocześniejszy, niż do dostrajania istniejącego. Ten ostatni może wydawać się mniej nowatorski, zauważa, co czyni go „znacznie trudniejszym do uzyskania papieru z.”
Guttag mówi, że istnieje również zniechęcenie dla wynalazców algorytmu do dokładnego porównania jego wydajności z innymi – tylko po to, aby dowiedzieć się, że ich przełom nie jest tym, co myśleli, że jest. „Istnieje ryzyko, że porównanie jest zbyt dokładne”. Jest to również ciężka praca: Badacze AI używają różnych zbiorów danych, metod dostrajania, metryk wydajności i linii bazowych. To po prostu niewykonalne, aby dokonać wszystkich porównań „jabłko w jabłko”.”
Niektóre z zawyżonych twierdzeń dotyczących wydajności można przypisać gwałtownemu wzrostowi dziedziny, w której liczba referatów przewyższa liczbę doświadczonych recenzentów. „Wiele z tego wydaje się być bólem rozwojowym,” mówi Blalock. Namawia recenzentów, aby nalegali na lepsze porównania z benchmarkami i twierdzi, że lepsze narzędzia pomogą. Na początku tego roku współautor Blalocka, badacz z MIT Jose Gonzalez Ortiz, wydał oprogramowanie o nazwie ShrinkBench, które ułatwia porównywanie algorytmów przycinania.
Badacze zwracają uwagę, że nawet jeśli nowe metody nie są zasadniczo lepsze od starych, poprawki, które wdrażają, mogą być stosowane do ich przodków. A raz na jakiś czas nowy algorytm okaże się prawdziwym przełomem. „To prawie jak portfel venture capital” – mówi Blalock – „gdzie niektóre z firm tak naprawdę nie działają, ale niektóre działają spektakularnie dobrze.”
.