Just_Super/iStock.com

Tekoälykkyys (tekoäly, AI) näyttää vain muuttuvan yhä älykkäämmäksi. Jokainen iPhone oppii kasvosi, äänesi ja tottumuksesi paremmin kuin edellinen, ja tekoälyn aiheuttamat uhat yksityisyydelle ja työpaikoille kasvavat jatkuvasti. Aalto heijastaa nopeampia siruja, enemmän dataa ja parempia algoritmeja. Osa parannuksista johtuu kuitenkin pikemminkin hienosäädöistä kuin niiden keksijöiden väittämistä perusinnovaatioista, ja osaa parannuksista ei ehkä ole olemassakaan, sanoo tietotekniikan jatko-opiskelija Davis Blalock Massachusetts Institute of Technologysta (MIT). Blalock ja hänen kollegansa vertasivat kymmeniä lähestymistapoja neuroverkkojen – aivoja löyhästi jäljittelevien ohjelmistoarkkitehtuurien – parantamiseen. ”Viidenkymmenen artikkelin jälkeen”, hän sanoo, ”kävi selväksi, ettei ollut selvää, mikä edes oli tekniikan taso.”

Tutkijat arvioivat 81 karsinta-algoritmia, ohjelmia, jotka tehostavat neuroverkkoja karsimalla tarpeettomia yhteyksiä. Kaikki väittivät olevansa ylivoimaisia hieman eri tavoin. Niitä verrattiin kuitenkin harvoin kunnolla – ja kun tutkijat yrittivät arvioida niitä rinnakkain, suorituskyvyn paranemisesta ei löytynyt selvää näyttöä kymmenen vuoden aikana. Tulos, joka esiteltiin maaliskuussa Machine Learning and Systems -konferenssissa, yllätti Blalockin väitöskirjan ohjaajan, MIT:n tietojenkäsittelytieteilijä John Guttagin, jonka mukaan epätasainen vertailu itsessään saattaa selittää pysähtyneisyyden. ”Se on vanha saha, eikö niin?” Guttag sanoi. ”Jos jotain ei voi mitata, sitä on vaikea parantaa.”

Tutkijat ovat heränneet huomaamaan merkkejä huterasta edistyksestä monilla tekoälyn osa-alueilla. Vuonna 2019 tehdyssä meta-analyysissä hakukoneissa käytetyistä tiedonhakualgoritmeista päädyttiin siihen, että ”korkean veden raja … asetettiin itse asiassa vuonna 2009”. Toisessa vuonna 2019 tehdyssä tutkimuksessa toistettiin seitsemän neuroverkkosuosittelujärjestelmää, jollaisia mediasuoratoistopalvelut käyttävät. Siinä havaittiin, että kuusi niistä ei pystynyt päihittämään paljon yksinkertaisempia, ei-neuraalisia algoritmeja, jotka oli kehitetty vuosia aiemmin, kun aiempia tekniikoita oli hienosäädetty, mikä paljasti ”haamukehityksen” alalla. Cornellin yliopiston tietojenkäsittelytieteilijä Kevin Musgrave tarkasteli maaliskuussa arXiv-palveluun julkaistussa toisessa artikkelissaan häviöfunktioita eli algoritmin osaa, joka määrittelee matemaattisesti sen tavoitteen. Musgrave vertasi tusinaa funktiofunktiota tasavertaisesti kuvanhakutehtävässä ja havaitsi, että toisin kuin niiden kehittäjät väittivät, tarkkuus ei ollut parantunut vuoden 2006 jälkeen. ”Aina on ollut näitä hypeaaltoja”, Musgrave sanoo.

Koneoppimisalgoritmien parannukset voivat johtua perustavanlaatuisista muutoksista niiden arkkitehtuurissa, häviöfunktiossa tai optimointistrategiassa – siinä, miten ne käyttävät palautetta parantamiseen. Mutta myös hienovaraiset hienosäädöt mihin tahansa näistä voivat lisätä suorituskykyä, sanoo Zico Kolter, Carnegie Mellonin yliopiston tietojenkäsittelytieteilijä, joka tutkii kuvantunnistusmalleja, jotka on koulutettu olemaan immuuneja hakkerin ”vastahyökkäyksille”. Aikaisempi vastahyökkäyksiä koskeva koulutusmenetelmä, joka tunnetaan nimellä projected gradient descent (PGD) ja jossa mallia yksinkertaisesti koulutetaan sekä todellisilla että petollisilla esimerkeillä, näytti siltä, että monimutkaisemmat menetelmät ovat ohittaneet sen. Helmikuussa julkaistussa arXiv-paperissa Kolter ja hänen kollegansa havaitsivat kuitenkin, että kaikki menetelmät suoriutuivat suunnilleen samalla tavalla, kun niitä parannettiin yksinkertaisella kikkailulla.

Vanhat koirat, uudet temput

Vanhat kuvienhakualgoritmit suoriutuvat vaatimattomien hienosäätöjen jälkeen yhtä hyvin kuin uudetkin, mikä viittaa siihen, että varsinaista innovaatiota on vähän.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Tarkkuuspisteet Alkuperäinen suorituskykyParannettu suorituskyky

(GRAFIIKKA) X. LIU/SCIENCE; (TIEDOT) MUSGRAVE ET AL., ARXIV: 2003.08505

”Se oli hyvin yllättävää, että tätä ei ollut löydetty aiemmin”, sanoo Leslie Rice, Kolterin tohtorikoulutettava. Kolterin mukaan hänen havaintonsa viittaavat siihen, että PGD:n kaltaisia innovaatioita on vaikea saada aikaan, ja niitä parannetaan harvoin merkittävästi. ”On melko selvää, että PGD on itse asiassa juuri oikea algoritmi”, hän sanoo. ”Se on itsestäänselvyys, ja ihmiset haluavat löytää liian monimutkaisia ratkaisuja.”

Muutkin suuret algoritmiset edistysaskeleet näyttävät kestäneen ajan hammasta. Suuri läpimurto tapahtui vuonna 1997 LSTM-arkkitehtuurilla (long short-term memory), jota käytetään kielenkääntämisessä. Oikein koulutettuna LSTM:t vastasivat kaksi vuosikymmentä myöhemmin kehitettyjen, oletettavasti kehittyneempien arkkitehtuurien suorituskykyä. Toinen koneoppimisen läpimurto tapahtui vuonna 2014 generatiivisten vastakkaisverkkojen (Generative Adversarial Networks, GAN) avulla, jotka parittavat verkkoja luomis- ja kritiikkisyklissä ja terävöittävät niiden kykyä tuottaa esimerkiksi kuvia. Vuonna 2018 julkaistussa artikkelissa raportoitiin, että riittävällä laskennalla alkuperäinen GAN-menetelmä vastaa myöhempien vuosien menetelmien kykyjä.

Kolterin mukaan tutkijat ovat motivoituneempia tuottamaan uuden algoritmin ja hienosäätämään sitä, kunnes se on huippuluokkaa, kuin virittämään olemassa olevaa algoritmia. Jälkimmäinen voi vaikuttaa vähemmän uudelta, hän huomauttaa, mikä tekee siitä ”paljon vaikeampaa saada paperia.”

Guttag sanoo, että algoritmin keksijöitä ei myöskään kannusteta vertailemaan perusteellisesti algoritmin suorituskykyä muihin – vain huomatakseen, että heidän läpimurtonsa ei olekaan sitä, mitä he luulivat sen olevan. ”Liian huolelliseen vertailuun liittyy riski.” Se on myös kovaa työtä: Tekoälytutkijat käyttävät erilaisia tietokokonaisuuksia, viritysmenetelmiä, suorituskykymittareita ja lähtötasoja. ”Kaikkia vertailuja ei ole mahdollista tehdä.”

Joskin liioitelluista suorituskykyväitteistä voi johtua alan räjähdysmäisestä kasvusta, sillä kokeneita arvioijia on enemmän kuin papereita. ”Suuri osa tästä näyttää olevan kasvukipuja”, Blalock sanoo. Hän kehottaa arvioijia vaatimaan parempia vertailuja vertailuarvoihin ja sanoo, että paremmat työkalut auttavat. Aiemmin tänä vuonna Blalockin yhteistyökumppani, MIT:n tutkija Jose Gonzalez Ortiz, julkaisi ShrinkBench-nimisen ohjelmiston, joka helpottaa karsinta-algoritmien vertailua.

Tutkijat huomauttavat, että vaikka uudet menetelmät eivät olisikaan pohjimmiltaan parempia kuin vanhat, niiden toteuttamia hienosäätöjä voidaan soveltaa niiden edeltäjiin. Ja silloin tällöin uusi algoritmi on todellinen läpimurto. ”Se on melkein kuin riskipääomasalkku”, Blalock sanoo, ”jossa osa yrityksistä ei oikeastaan toimi, mutta osa toimii hämmästyttävän hyvin.”

Vastaa

Sähköpostiosoitettasi ei julkaista.