La inteligencia artificial (IA) parece cada vez más inteligente. Cada iPhone aprende tu cara, tu voz y tus hábitos mejor que el anterior, y las amenazas que la IA supone para la privacidad y los puestos de trabajo siguen creciendo. El aumento refleja chips más rápidos, más datos y mejores algoritmos. Pero algunas de las mejoras provienen de ajustes más que de las innovaciones básicas que afirman sus inventores, y algunas de las ganancias pueden no existir en absoluto, dice Davis Blalock, estudiante de posgrado de ciencias de la computación en el Instituto Tecnológico de Massachusetts (MIT). Blalock y sus colegas compararon docenas de enfoques para mejorar las redes neuronales, arquitecturas de software que imitan vagamente al cerebro. «Los investigadores evaluaron 81 algoritmos de poda, programas que hacen que las redes neuronales sean más eficientes recortando las conexiones innecesarias. Todos afirmaban su superioridad de formas ligeramente diferentes. Pero rara vez se compararon adecuadamente, y cuando los investigadores trataron de evaluarlos uno al lado del otro, no hubo evidencia clara de mejoras en el rendimiento durante un período de 10 años. El resultado, presentado en marzo en la conferencia Machine Learning and Systems, sorprendió al asesor del doctorado de Blalock, el informático del MIT John Guttag, quien afirma que las propias comparaciones desiguales pueden explicar el estancamiento. «Es la vieja sierra, ¿no?» dijo Guttag. «Si no puedes medir algo, es difícil mejorarlo».
Los investigadores están despertando a los signos de un progreso inestable en muchos subcampos de la IA. Un meta-análisis de 2019 de los algoritmos de recuperación de información utilizados en los motores de búsqueda concluyó que la «marca de agua alta … en realidad se estableció en 2009.» Otro estudio de 2019 reprodujo siete sistemas de recomendación de redes neuronales, del tipo utilizado por los servicios de transmisión de medios. Encontró que seis no lograron superar a algoritmos mucho más simples y no neuronales desarrollados años antes, cuando las técnicas anteriores fueron afinadas, revelando un «progreso fantasma» en el campo. En otro artículo publicado en arXiv en marzo, Kevin Musgrave, informático de la Universidad de Cornell, analizó las funciones de pérdida, la parte de un algoritmo que especifica matemáticamente su objetivo. Musgrave comparó una docena de ellas en igualdad de condiciones, en una tarea de recuperación de imágenes, y descubrió que, en contra de las afirmaciones de sus desarrolladores, la precisión no había mejorado desde 2006. «Siempre ha habido estas olas de publicidad», dice Musgrave.
Las mejoras en los algoritmos de aprendizaje automático pueden provenir de cambios fundamentales en su arquitectura, función de pérdida o estrategia de optimización, es decir, cómo utilizan la retroalimentación para mejorar. Sin embargo, los ajustes sutiles de cualquiera de ellos también pueden aumentar el rendimiento, afirma Zico Kolter, informático de la Universidad Carnegie Mellon que estudia los modelos de reconocimiento de imágenes entrenados para ser inmunes a los «ataques adversarios» de un hacker. Un primer método de entrenamiento adversarial conocido como descenso de gradiente proyectado (PGD), en el que un modelo se entrena simplemente con ejemplos reales y engañosos, parecía haber sido superado por métodos más complejos. Pero en un artículo publicado en febrero en arXiv, Kolter y sus colegas descubrieron que todos los métodos funcionaban igual cuando se utilizaba un sencillo truco para mejorarlos.
«Fue muy sorprendente que esto no se hubiera descubierto antes», dice Leslie Rice, estudiante de doctorado de Kolter. Kolter dice que sus hallazgos sugieren que innovaciones como el DGP son difíciles de conseguir, y rara vez se mejoran de forma sustancial. «Está bastante claro que el DGP es en realidad el algoritmo adecuado», dice. «Es lo más obvio, y la gente quiere encontrar soluciones demasiado complejas».
Otros grandes avances algorítmicos también parecen haber resistido la prueba del tiempo. Un gran avance se produjo en 1997 con una arquitectura llamada memoria a corto plazo (LSTM), utilizada en la traducción de idiomas. Cuando se entrenan adecuadamente, las LSTM igualan el rendimiento de arquitecturas supuestamente más avanzadas desarrolladas dos décadas después. Otro avance en el aprendizaje automático llegó en 2014 con las redes generativas adversariales (GAN), que emparejan redes en un ciclo de creación y crítica para afinar su capacidad de producir imágenes, por ejemplo. Un artículo de 2018 informó de que, con suficiente computación, el método GAN original iguala las capacidades de los métodos de años posteriores.
Kolter dice que los investigadores están más motivados para producir un nuevo algoritmo y ajustarlo hasta que sea de última generación que para afinar uno existente. Esto último puede parecer menos novedoso, señala, lo que hace «mucho más difícil conseguir un artículo».
Guttag dice que también hay un desincentivo para los inventores de un algoritmo para comparar a fondo su rendimiento con otros, sólo para descubrir que su avance no es lo que pensaban que era. «Existe el riesgo de comparar con demasiado cuidado». También es un trabajo duro: Los investigadores de IA utilizan diferentes conjuntos de datos, métodos de ajuste, métricas de rendimiento y líneas de base. «No es realmente factible hacer todas las comparaciones de manzanas con manzanas».
Algunas de las afirmaciones exageradas sobre el rendimiento pueden atribuirse al crecimiento explosivo del campo, donde los artículos superan en número a los revisores experimentados. «Gran parte de esto parece ser un problema de crecimiento», dice Blalock. Insta a los revisores a que insistan en mejorar las comparaciones con los puntos de referencia y afirma que unas herramientas mejores ayudarán. A principios de este año, el coautor de Blalock, el investigador del MIT José González Ortiz, lanzó un software llamado ShrinkBench que facilita la comparación de algoritmos de poda.
Los investigadores señalan que incluso si los nuevos métodos no son fundamentalmente mejores que los antiguos, los ajustes que implementan pueden aplicarse a sus antepasados. Y de vez en cuando, un nuevo algoritmo supone un verdadero avance. «Es casi como una cartera de capital riesgo», dice Blalock, «en la que algunos de los negocios no funcionan realmente, pero otros funcionan espectacularmente bien».