Just_Super/iStock.com

L’intelligenza artificiale (IA) sembra solo diventare sempre più intelligente. Ogni iPhone impara la tua faccia, la tua voce e le tue abitudini meglio del precedente, e le minacce che l’IA pone alla privacy e ai posti di lavoro continuano a crescere. L’aumento riflette chip più veloci, più dati e algoritmi migliori. Ma alcuni dei miglioramenti provengono da aggiustamenti piuttosto che dalle innovazioni fondamentali che i loro inventori sostengono, e alcuni dei guadagni potrebbero non esistere affatto, dice Davis Blalock, uno studente laureato in informatica al Massachusetts Institute of Technology (MIT). Blalock e i suoi colleghi hanno confrontato decine di approcci per migliorare le reti neurali – architetture software che imitano vagamente il cervello. “I ricercatori hanno valutato 81 algoritmi di pruning, programmi che rendono le reti neurali più efficienti tagliando le connessioni non necessarie. Tutti hanno rivendicato la superiorità in modi leggermente diversi. Ma raramente sono stati confrontati correttamente – e quando i ricercatori hanno cercato di valutarli fianco a fianco, non c’era alcuna chiara evidenza di miglioramenti delle prestazioni in un periodo di 10 anni. Il risultato, presentato a marzo alla conferenza Machine Learning and Systems, ha sorpreso il consulente di dottorato di Blalock, l’informatico del MIT John Guttag, che dice che gli stessi confronti irregolari possono spiegare la stagnazione. “È la vecchia sega, giusto?” Ha detto Guttag. “Se non puoi misurare qualcosa, è difficile migliorarlo.”

I ricercatori si stanno svegliando ai segni di progresso traballante in molti sottocampi dell’IA. Una meta-analisi del 2019 sugli algoritmi di recupero delle informazioni utilizzati nei motori di ricerca ha concluso che il “high-water mark … è stato effettivamente fissato nel 2009.” Un altro studio del 2019 ha riprodotto sette sistemi di raccomandazione a rete neurale, del tipo usato dai servizi di streaming dei media. Ha scoperto che sei non sono riusciti a superare algoritmi molto più semplici e non neurali sviluppati anni prima, quando le tecniche precedenti sono state messe a punto, rivelando un “progresso fantasma” nel campo. In un altro articolo pubblicato su arXiv a marzo, Kevin Musgrave, un informatico della Cornell University, ha dato un’occhiata alle funzioni di perdita, la parte di un algoritmo che specifica matematicamente il suo obiettivo. Musgrave ha confrontato una dozzina di loro su un piano di parità, in un compito che coinvolge il recupero delle immagini, e ha scoperto che, contrariamente alle affermazioni dei loro sviluppatori, la precisione non è migliorata dal 2006. “C’è sempre stata questa ondata di pubblicità”, dice Musgrave.

I guadagni negli algoritmi di apprendimento automatico possono derivare da cambiamenti fondamentali nella loro architettura, nella funzione di perdita o nella strategia di ottimizzazione, come usano il feedback per migliorare. Ma sottili modifiche a uno qualsiasi di questi possono anche aumentare le prestazioni, dice Zico Kolter, un informatico della Carnegie Mellon University che studia i modelli di riconoscimento delle immagini addestrati per essere immuni agli “attacchi avversari” di un hacker. Un primo metodo di addestramento avversario noto come projected gradient descent (PGD), in cui un modello è semplicemente addestrato sia su esempi reali che ingannevoli, sembrava essere stato superato da metodi più complessi. Ma in un articolo arXiv di febbraio, Kolter e i suoi colleghi hanno scoperto che tutti i metodi hanno funzionato circa allo stesso modo quando un semplice trucco è stato usato per migliorarli.

Vecchi cani, nuovi trucchi

Dopo modeste modifiche, i vecchi algoritmi di recupero delle immagini funzionano bene come quelli nuovi, suggerendo poca innovazione effettiva.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Punteggio di precisione Prestazione originale Prestazione modificata

(GRAFICA) X. LIU/SCIENCE; (DATI) MUSGRAVE ET AL, ARXIV: 2003.08505

“È stato molto sorprendente, che questo non fosse stato scoperto prima”, dice Leslie Rice, studente di dottorato di Kolter. Kolter dice che le sue scoperte suggeriscono che innovazioni come la PGD sono difficili da trovare, e raramente vengono migliorate in modo sostanziale. “È abbastanza chiaro che la PGD è in realtà solo l’algoritmo giusto”, dice. “È la cosa più ovvia, e la gente vuole trovare soluzioni troppo complesse.”

Anche altri grandi progressi algoritmici sembrano aver superato la prova del tempo. Una grande svolta è arrivata nel 1997 con un’architettura chiamata memoria a breve termine (LSTM), usata nella traduzione linguistica. Se adeguatamente addestrate, le LSTM hanno eguagliato le prestazioni di architetture presumibilmente più avanzate sviluppate 2 decenni dopo. Un’altra svolta nell’apprendimento automatico è arrivata nel 2014 con le reti generative avversarie (GAN), che accoppiano le reti in un ciclo di creazione e critica per affinare la loro capacità di produrre immagini, per esempio. Un documento del 2018 ha riferito che con abbastanza calcolo, il metodo GAN originale corrisponde alle capacità dei metodi degli anni successivi.

Kolter dice che i ricercatori sono più motivati a produrre un nuovo algoritmo e a metterlo a punto fino a quando non è all’avanguardia che a sintonizzare uno esistente. Quest’ultimo può apparire meno nuovo, nota, rendendolo “molto più difficile da ottenere un documento”.

Guttag dice che c’è anche un disincentivo per gli inventori di un algoritmo a confrontare accuratamente le sue prestazioni con gli altri, solo per scoprire che la loro scoperta non è quello che pensavano che fosse. “C’è il rischio di confrontare troppo attentamente”. È anche un lavoro duro: I ricercatori di IA usano diversi set di dati, metodi di sintonizzazione, metriche di performance e linee di base. “Non è proprio possibile fare tutti i confronti alla pari.”

Alcune delle affermazioni sulle prestazioni esagerate possono essere attribuite alla crescita esplosiva del campo, dove i documenti superano il numero dei revisori esperti. “Molto di questo sembra essere dolori di crescita”, dice Blalock. Egli esorta i revisori ad insistere su migliori confronti con i benchmark e dice che migliori strumenti aiuteranno. All’inizio di quest’anno, il co-autore di Blalock, il ricercatore del MIT Jose Gonzalez Ortiz, ha rilasciato un software chiamato ShrinkBench che rende più facile confrontare gli algoritmi di potatura.

I ricercatori sottolineano che anche se i nuovi metodi non sono fondamentalmente migliori di quelli vecchi, le modifiche che implementano possono essere applicate ai loro antenati. E ogni tanto, un nuovo algoritmo sarà una vera svolta. “È quasi come un portafoglio di capitale di rischio”, dice Blalock, “dove alcune attività non funzionano veramente, ma alcune funzionano spettacolarmente bene”.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.