A inteligência artificial (IA) parece ficar cada vez mais inteligente. Cada iPhone aprende o seu rosto, voz e hábitos melhor do que o anterior, e as ameaças que a IA representa para a privacidade e os empregos continuam a crescer. A onda reflete chips mais rápidos, mais dados e melhores algoritmos. Mas algumas das melhorias vêm de ajustes em vez das inovações principais que seus inventores reivindicam – e alguns dos ganhos podem não existir de todo, diz Davis Blalock, um estudante de pós-graduação em ciência da computação do Massachusetts Institute of Technology (MIT). Blalock e seus colegas compararam dezenas de abordagens para melhorar as redes neurais – arquiteturas de software que imitam vagamente o cérebro. “Cinquenta artigos”, diz ele, “ficou claro que não era óbvio o que era o estado da arte”
Os pesquisadores avaliaram 81 algoritmos de poda, programas que tornam as redes neurais mais eficientes através do corte de conexões desnecessárias. Todos reivindicaram superioridade de formas ligeiramente diferentes. Mas raramente foram comparados corretamente – e quando os pesquisadores tentaram avaliá-los lado a lado, não houve evidências claras de melhorias de desempenho ao longo de um período de 10 anos. O resultado, apresentado em março na conferência Machine Learning and Systems, surpreendeu o consultor de Ph.D. da Blalock, o cientista da computação do MIT John Guttag, que diz que as comparações desiguais em si podem explicar a estagnação. “É a velha serra, certo?” Guttag disse. “Se não se pode medir algo, é difícil torná-lo melhor.”
Pesquisadores estão a acordar para os sinais de progresso tremido em muitos subcampos de IA. Uma meta-análise de 2019 dos algoritmos de recuperação de informação usados nos motores de busca concluiu que a “marca de água alta … foi realmente definida em 2009”. Outro estudo em 2019 reproduziu sete sistemas de recomendação de redes neurais, do tipo utilizado pelos serviços de streaming de mídia. Ele descobriu que seis não conseguiram superar algoritmos muito mais simples e não neurais desenvolvidos anos antes, quando as técnicas anteriores foram aperfeiçoadas, revelando “progresso fantasma” no campo. Em outro artigo publicado no arXiv em março, Kevin Musgrave, um cientista da Universidade de Cornell, deu uma olhada nas funções de perda, a parte de um algoritmo que especifica matematicamente seu objetivo. Musgrave comparou uma dúzia deles em pé de igualdade, em uma tarefa envolvendo recuperação de imagem, e descobriu que, ao contrário das afirmações de seus desenvolvedores, a precisão não tinha melhorado desde 2006. “Sempre houve essas ondas de hype”, diz Musgrave.
Ganhos em algoritmos de aprendizagem de máquina podem vir de mudanças fundamentais em sua arquitetura, função de perda ou estratégia de otimização – como eles usam feedback para melhorar. Mas ajustes sutis em qualquer um deles também podem aumentar o desempenho, diz Zico Kolter, um cientista da Carnegie Mellon University, que estuda modelos de reconhecimento de imagem treinados para serem imunes a “ataques adversos” por um hacker. Um método de treinamento adversário precoce conhecido como descida de gradiente projetado (PGD), no qual um modelo é simplesmente treinado tanto em exemplos reais quanto enganosos, parece ter sido ultrapassado por métodos mais complexos. Mas em um artigo do arXiv de fevereiro, Kolter e seus colegas descobriram que todos os métodos eram mais ou menos os mesmos quando um simples truque era usado para melhorá-los.
“Isso foi muito surpreendente, que isto não tivesse sido descoberto antes”, diz Leslie Rice, estudante de doutoramento de Kolter. Kolter diz que suas descobertas sugerem que inovações como o PGD são difíceis de encontrar, e raramente são melhoradas de forma substancial. “É bastante claro que o PGD é na verdade o algoritmo certo”, diz ele. “É a coisa óbvia, e as pessoas querem encontrar soluções demasiado complexas”
Outros grandes avanços algorítmicos também parecem ter resistido ao teste do tempo. Um grande avanço veio em 1997 com uma arquitetura chamada de memória de longo prazo (LSTM), usada na tradução de idiomas. Quando devidamente treinadas, as LSTMs corresponderam ao desempenho de arquiteturas supostamente mais avançadas desenvolvidas 2 décadas depois. Outro avanço na aprendizagem mecânica veio em 2014 com as redes adversas generativas (GANs), que emparelham redes em um ciclo de criação e crítica para aguçar sua capacidade de produzir imagens, por exemplo. Um artigo de 2018 relatou que, com computação suficiente, o método GAN original corresponde às habilidades dos métodos de anos posteriores.
Kolter diz que os pesquisadores estão mais motivados para produzir um novo algoritmo e ajustá-lo até que ele esteja no estado da arte do que para afinar um já existente. O último pode parecer menos novo, ele observa, tornando “muito mais difícil conseguir um trabalho”
Guttag diz que há também um desincentivo para os inventores de um algoritmo compararem completamente o seu desempenho com outros – apenas para descobrir que o seu avanço não é o que eles pensavam que era. “Há um risco de comparar com muito cuidado.” Também é um trabalho árduo: Os investigadores de IA usam diferentes conjuntos de dados, métodos de afinação, métricas de desempenho e linhas de base. “Não é realmente viável fazer todas as comparações entre maçãs e maçãs.”
Algumas das alegações de desempenho exageradas podem ser atribuídas ao crescimento explosivo do campo, onde os trabalhos superam o número de revisores experientes. “Muito disto parece ser dores de crescimento”, diz Blalock. Ele pede aos revisores que insistam em melhores comparações com os benchmarks e diz que melhores ferramentas ajudarão. No início deste ano, o co-autor de Blalock, o pesquisador do MIT José Gonzalez Ortiz, lançou um software chamado ShrinkBench que facilita a comparação de algoritmos de poda.
Pesquisadores apontam que mesmo que novos métodos não sejam fundamentalmente melhores que os antigos, os ajustes que eles implementam podem ser aplicados aos seus antepassados. E de vez em quando, um novo algoritmo será um verdadeiro avanço. “É quase como uma carteira de capital de risco”, diz Blalock, “onde alguns dos negócios não estão realmente funcionando, mas alguns estão funcionando espetacularmente bem”.”