Umělá inteligence (AI) se zdá být stále chytřejší. Každý iPhone se učí vaši tvář, hlas a zvyky lépe než ten předchozí a hrozby, které AI představuje pro soukromí a pracovní místa, stále rostou. Prudký nárůst odráží rychlejší čipy, více dat a lepší algoritmy. Některá zlepšení však pocházejí spíše z vylepšení než z klíčových inovací, jak tvrdí jejich vynálezci – a některé z přínosů možná vůbec neexistují, říká Davis Blalock, postgraduální student informatiky na Massachusettském technologickém institutu (MIT). Blalock a jeho kolegové porovnávali desítky přístupů ke zlepšení neuronových sítí – softwarových architektur, které volně napodobují mozek. „Po padesáti článcích,“ říká, „bylo jasné, že není zřejmé, jaký je vůbec stav techniky.“
Výzkumníci hodnotili 81 algoritmů pro ořezávání, programů, které zefektivňují neuronové sítě tím, že ořezávají nepotřebná spojení. Všechny tvrdily, že jsou lepší trochu jiným způsobem. Málokdy však byly řádně porovnány – a když se je výzkumníci pokusili vyhodnotit vedle sebe, nenašli žádný jasný důkaz o zlepšení výkonu v průběhu desetiletého období. Výsledek, prezentovaný v březnu na konferenci Machine Learning and Systems, překvapil Blalockova doktorandského poradce, počítačového vědce z MIT Johna Guttaga, který tvrdí, že stagnaci mohou vysvětlit samotná nerovnoměrná srovnání. „Je to stará známá pila, že?“ Guttag řekl. „Když něco nemůžete změřit, těžko to zlepšíte.“
Výzkumníci se probouzejí k příznakům vratkého pokroku v mnoha podoborech umělé inteligence. Metaanalýza algoritmů pro vyhledávání informací používaných ve vyhledávačích z roku 2019 dospěla k závěru, že „vrchol … byl ve skutečnosti dosažen v roce 2009“. Jiná studie z roku 2019 reprodukovala sedm doporučovacích systémů neuronových sítí, takových, jaké používají služby pro streamování médií. Zjistila, že šest z nich nedokázalo překonat mnohem jednodušší, neuronové algoritmy vyvinuté před lety, kdy byly dřívější techniky vyladěny, což odhalilo „zdánlivý pokrok“ v této oblasti. V dalším článku zveřejněném v březnu na arXiv se Kevin Musgrave, počítačový vědec z Cornellovy univerzity, zabýval ztrátovými funkcemi, tedy částí algoritmu, která matematicky specifikuje jeho cíl. Musgrave porovnal tucet z nich na stejné úrovni v úloze zahrnující vyhledávání obrázků a zjistil, že v rozporu s tvrzením jejich tvůrců se přesnost od roku 2006 nezlepšila. „Vždycky se objevovaly takové vlny humbuku,“ říká Musgrave.
Zlepšení algoritmů strojového učení může pocházet ze zásadních změn v jejich architektuře, ztrátové funkci nebo optimalizační strategii – jak využívají zpětnou vazbu ke zlepšení. Ale jemné úpravy kteréhokoli z nich mohou také zvýšit výkon, říká Zico Kolter, počítačový vědec z Carnegie Mellon University, který studuje modely rozpoznávání obrazu vycvičené tak, aby byly odolné vůči „útokům protivníka“ ze strany hackera. Zdálo se, že dřívější metoda tréninku protihráčů známá jako projected gradient descent (PGD), při níž se model jednoduše trénuje na skutečných i podvodných příkladech, byla překonána složitějšími metodami. Kolter a jeho kolegové však v únorovém článku na serveru arXiv zjistili, že všechny metody si vedou přibližně stejně, když se k jejich vylepšení použije jednoduchý trik.
„To bylo velmi překvapivé, že to nebylo objeveno dříve,“ říká Leslie Riceová, Kolterova doktorandka. Kolter říká, že jeho zjištění naznačují, že inovace, jako je PGD, se těžko objevují a málokdy se podaří je zásadním způsobem vylepšit. „Je celkem jasné, že PGD je vlastně jen správný algoritmus,“ říká. „Je to samozřejmá věc a lidé chtějí najít příliš složitá řešení.“
Zdá se, že i další významné algoritmické pokroky obstály ve zkoušce času. Velký průlom přišel v roce 1997 s architekturou zvanou dlouhá krátkodobá paměť (LSTM), která se používá při překladu jazyků. Při správném tréninku se LSTM vyrovnaly výkonem údajně pokročilejším architekturám vyvinutým o dvě desetiletí později. Další průlom ve strojovém učení přišel v roce 2014 s generativními adverzními sítěmi (GAN), které párují sítě v cyklu vytváření a kritiky, aby se vybrousila jejich schopnost vytvářet například obrázky. V článku z roku 2018 se uvádí, že při dostatečném množství výpočtů se původní metoda GAN vyrovná schopnostem metod z pozdějších let.
Kolter říká, že výzkumníci jsou více motivováni k vytvoření nového algoritmu a jeho vylepšování, dokud není na špičkové úrovni, než k ladění stávajícího algoritmu. Ten se může jevit jako méně nový, podotýká, takže je „mnohem těžší získat od něj práci“.
Guttag říká, že existuje také demotivace pro vynálezce algoritmu, aby důkladně porovnali jeho výkonnost s ostatními – jen aby zjistili, že jejich průlomový objev není takový, jak si mysleli. „Příliš pečlivé srovnávání představuje riziko.“ Je to také těžká práce: Výzkumníci v oblasti umělé inteligence používají různé soubory dat, metody ladění, výkonnostní metriky a výchozí hodnoty. „Prostě není možné provést všechna srovnání jablek s jablky.“
Některá z přehnaných tvrzení o výkonnosti lze připsat na vrub explozivnímu růstu oboru, v němž počet článků převyšuje počet zkušených recenzentů. „Zdá se, že hodně z toho jsou bolesti při růstu,“ říká Blalock. Vyzývá recenzenty, aby trvali na lepším porovnávání s referenčními hodnotami, a říká, že pomohou lepší nástroje. Začátkem tohoto roku Blalockův spoluautor, výzkumník z MIT Jose Gonzalez Ortiz, vydal software nazvaný ShrinkBench, který usnadňuje porovnávání ořezávacích algoritmů.
Výzkumníci poukazují na to, že i když nové metody nejsou v zásadě lepší než staré, vylepšení, která implementují, lze aplikovat na jejich předchůdce. A jednou za čas se nový algoritmus stane skutečným průlomem. „Je to skoro jako portfolio rizikového kapitálu,“ říká Blalock, „kde některé podniky ve skutečnosti nefungují, ale některé fungují velkolepě.“
.