Just_Super/iStock.com

L’intelligence artificielle (IA) semble juste devenir de plus en plus intelligente. Chaque iPhone apprend votre visage, votre voix et vos habitudes mieux que le précédent, et les menaces que l’IA fait peser sur la vie privée et les emplois continuent de croître. Cette évolution reflète la rapidité des puces, l’augmentation des données et l’amélioration des algorithmes. Mais certaines de ces améliorations sont le fruit de retouches plutôt que des innovations fondamentales revendiquées par leurs inventeurs, et certains gains pourraient même ne pas exister du tout, selon Davis Blalock, étudiant diplômé en informatique au Massachusetts Institute of Technology (MIT). M. Blalock et ses collègues ont comparé des dizaines d’approches visant à améliorer les réseaux neuronaux – des architectures logicielles qui imitent vaguement le cerveau. « Au bout de 50 articles, dit-il, il est devenu évident que l’état de l’art n’était même pas évident ».

Les chercheurs ont évalué 81 algorithmes d’élagage, des programmes qui rendent les réseaux neuronaux plus efficaces en supprimant les connexions inutiles. Tous revendiquaient leur supériorité de manière légèrement différente. Mais ils étaient rarement comparés correctement – et lorsque les chercheurs ont essayé de les évaluer côte à côte, ils n’ont trouvé aucune preuve évidente d’amélioration des performances sur une période de 10 ans. Le résultat, présenté en mars à la conférence Machine Learning and Systems, a surpris le conseiller de Blalock pour son doctorat, l’informaticien John Guttag du MIT, qui estime que les comparaisons inégales elles-mêmes peuvent expliquer la stagnation. « C’est la vieille scie, non ? » dit Guttag. « Si vous ne pouvez pas mesurer quelque chose, il est difficile de l’améliorer. »

Les chercheurs se réveillent aux signes de progrès chancelants dans de nombreux sous-domaines de l’IA. Une méta-analyse de 2019 sur les algorithmes de recherche d’information utilisés dans les moteurs de recherche a conclu que le « point culminant … a en fait été fixé en 2009. » Une autre étude de 2019 a reproduit sept systèmes de recommandation par réseaux neuronaux, du type de ceux utilisés par les services de streaming média. Elle a constaté que six d’entre eux n’ont pas réussi à surpasser les algorithmes non neuronaux beaucoup plus simples développés des années auparavant, lorsque les techniques antérieures ont été affinées, révélant un « progrès fantôme » dans le domaine. Dans un autre article publié sur arXiv en mars, Kevin Musgrave, informaticien à l’université Cornell, s’est penché sur les fonctions de perte, la partie d’un algorithme qui spécifie mathématiquement son objectif. Musgrave a comparé une douzaine d’entre elles sur un pied d’égalité, dans une tâche de recherche d’images, et a constaté que, contrairement aux affirmations de leurs concepteurs, la précision ne s’était pas améliorée depuis 2006. « Il y a toujours eu ces vagues de battage médiatique », dit Musgrave.

Les gains dans les algorithmes d’apprentissage automatique peuvent provenir de changements fondamentaux dans leur architecture, leur fonction de perte ou leur stratégie d’optimisation – comment ils utilisent le feedback pour s’améliorer. Mais des ajustements subtils de n’importe lequel de ces éléments peuvent également stimuler les performances, explique Zico Kolter, un informaticien de l’université Carnegie Mellon qui étudie les modèles de reconnaissance d’images entraînés pour être immunisés contre les « attaques adversariales » d’un pirate. Une première méthode d’entraînement contre les attaques connue sous le nom de descente de gradient projetée (PGD), dans laquelle un modèle est simplement entraîné sur des exemples réels et trompeurs, semblait avoir été dépassée par des méthodes plus complexes. Mais dans un article publié en février sur arXiv, Kolter et ses collègues ont constaté que toutes les méthodes avaient à peu près les mêmes performances lorsqu’une simple astuce était utilisée pour les améliorer.

Vieux chiens, nouveaux tours

Après de modestes retouches, les anciens algorithmes de recherche d’images fonctionnent aussi bien que les nouveaux, ce qui suggère peu d’innovation réelle.

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Score de précision Performance originalePerformance modifiée

(GRAPHIQUE) X. LIU/SCIENCE ; (DONNEES) MUSGRAVE ET AL, ARXIV : 2003.08505

« C’était très surprenant, que cela n’ait pas été découvert auparavant », déclare Leslie Rice, l’étudiant en doctorat de Kolter. Selon Kolter, ses résultats suggèrent que les innovations telles que le DPI sont difficiles à trouver et qu’elles sont rarement améliorées de manière substantielle. « Il est assez clair que le DPI n’est en fait que le bon algorithme », dit-il. « C’est la chose évidente, et les gens veulent trouver des solutions trop complexes. »

D’autres avancées algorithmiques majeures semblent également avoir résisté à l’épreuve du temps. Une grande percée a eu lieu en 1997 avec une architecture appelée mémoire à long terme (LSTM), utilisée dans la traduction des langues. Lorsqu’elles ont été correctement entraînées, les LSTM ont égalé les performances d’architectures supposées plus avancées, développées vingt ans plus tard. Une autre avancée en matière d’apprentissage automatique a été réalisée en 2014 avec les réseaux adversaires génératifs (GAN), qui associent des réseaux dans un cycle de création et de critique afin d’améliorer leur capacité à produire des images, par exemple. Un article de 2018 a rapporté qu’avec suffisamment de calculs, la méthode GAN originale correspond aux capacités des méthodes des années suivantes.

Kolter dit que les chercheurs sont plus motivés pour produire un nouvel algorithme et le modifier jusqu’à ce qu’il soit à la pointe de la technologie que pour régler un algorithme existant. Ce dernier peut sembler moins novateur, note-t-il, ce qui le rend « beaucoup plus difficile à obtenir un article ».

Guttag dit qu’il y a aussi une désincitation pour les inventeurs d’un algorithme à comparer minutieusement ses performances avec d’autres – pour découvrir que leur percée n’est pas ce qu’ils pensaient. « Il y a un risque à comparer trop soigneusement ». C’est aussi un travail difficile : Les chercheurs en IA utilisent différents ensembles de données, méthodes de réglage, mesures de performance et bases de référence. « Il n’est tout simplement pas vraiment possible de faire toutes les comparaisons de pommes à pommes. »

Certaines des revendications de performance exagérées peuvent être mises à la craie de la croissance explosive du domaine, où les articles sont plus nombreux que les examinateurs expérimentés. « Une grande partie de cela semble être des douleurs de croissance », dit Blalock. Il exhorte les évaluateurs à insister sur de meilleures comparaisons avec des points de référence et affirme que de meilleurs outils seront utiles. Plus tôt cette année, le co-auteur de Blalock, Jose Gonzalez Ortiz, chercheur au MIT, a publié un logiciel appelé ShrinkBench qui facilite la comparaison des algorithmes d’élagage.

Les chercheurs soulignent que même si les nouvelles méthodes ne sont pas fondamentalement meilleures que les anciennes, les modifications qu’elles mettent en œuvre peuvent être appliquées à leurs ancêtres. Et de temps en temps, un nouvel algorithme constitue une véritable percée. « C’est presque comme un portefeuille de capital-risque », dit M. Blalock, « où certaines des entreprises ne fonctionnent pas vraiment, mais d’autres fonctionnent spectaculairement bien. »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.