一部のAI分野における目を見張るような進歩は本物ではない｜サイエンス｜AAAS

人工知能（AI）はますます賢くなるようです。 iPhoneが顔や声、習慣を学習するたびに、AIがプライバシーや雇用にもたらす脅威は大きくなり続けています。その背景には、より高速なチップ、より多くのデータ、そしてより優れたアルゴリズムがあります。マサチューセッツ工科大学（MIT）のコンピュータサイエンス研究科に在籍するデイヴィス・ブラロックは、このような改善の中には、発明者が主張するような革新的なコア技術ではなく、微調整によってもたらされたものもあると指摘し、その一部は全く存在しないかもしれないとも述べています。ブラロックと彼の同僚たちは、脳を大まかに模倣したソフトウェア・アーキテクチャであるニューラルネットワークを改良するための数十のアプローチを比較した。「研究者たちは、81 の刈り込みアルゴリズム、つまり不要な接続を切り捨ててニューラルネットワークをより効率的にするプログラムを評価しました。すべてのプログラムが、わずかに異なる方法で優位性を主張しています。しかし、それらが適切に比較されることはほとんどなく、研究者たちがそれらを並べて評価しようとしたところ、10年以上にわたって性能が向上したという明確な証拠はありませんでした。この結果は、3月に開催された『Machine Learning and Systems』学会で発表され、ブラロックの博士号取得を指導したMITのコンピューター科学者ジョン・ガッタグを驚かせた。彼は、比較対象が異なること自体が、この停滞を説明しているのではないかと言う。 “昔ののこぎりでしょう？” とガッタグ氏は言う。「何かを測定できないなら、それを改善するのは難しい」

研究者は、AIの多くの下位分野にわたって、揺らいだ進歩の兆候に目を覚ましています。検索エンジンで使用される情報検索アルゴリズムの 2019 年のメタ分析では、「ハイウォーターマークは…実際には 2009 年に設定された」と結論づけています。 2019年の別の研究では、メディアストリーミングサービスで使用される種類のニューラルネットワーク推薦システム7つを再現した。その結果、6つは、以前の技術を微調整した数年前に開発された、より単純な非ニューラルアルゴリズムを上回ることができず、この分野における「幻の進歩」が明らかになった。コーネル大学のコンピュータ科学者であるKevin Musgrave氏は、3月にarXivに投稿した別の論文で、損失関数（アルゴリズムの目的を数学的に特定する部分）を取り上げました。その結果、開発者の主張とは裏腹に、2006年以降、精度が向上していないことが判明したのです。「機械学習アルゴリズムにおける利益は、アーキテクチャ、損失関数、最適化戦略など、フィードバックを利用して改善する方法の根本的な変更によってもたらされる可能性があります。カーネギーメロン大学のコンピュータ科学者である Zico Kolter 氏は、ハッカーによる「敵対的攻撃」に耐えられるように訓練された画像認識モデルを研究しています。投影型勾配降下法（PGD）として知られる初期の敵対的学習法は、実際の例と欺瞞的な例の両方でモデルを単純に学習させるもので、より複雑な手法に追い越されたように思えた。しかし、2 月の arXiv 論文で、Kolter 氏らは、簡単なトリックを使用して強化した場合、すべての手法がほぼ同じパフォーマンスを示すことを発見しました。

Contrastive(2006)ProxyNCA(2017)SoftTriple(2019)0255075100Accuracy score Original performanceTweaked performance

(GRAPHIC) X. LIU/SCIENCE; (DATA) MUSGRAVE ET AL.・(CONTROL)・(PHOTOS)・(DATA) MUSE(PHOTOS)・(PHOTOS)・(PHOTOS) ARXIV: 2003.08505

「今まで発見されていなかったということは、非常に驚きでした」と、Kolter氏の博士課程の学生であるLeslie Rice氏は言います。コルター氏によれば、彼の発見は、PGDのような革新的な技術は得難く、実質的な方法で改善されることはほとんどないことを示唆しています。「PGDが実はちょうどよいアルゴリズムであることは明らかです」と彼は言う。「これは明白なことであり、人々は過度に複雑な解決策を見つけようとします。 1997年、言語翻訳に使われるLSTM（long-short memory）と呼ばれるアーキテクチャで大きなブレークスルーがありました。 LSTMは適切に訓練されると、20年後に開発されたより高度なアーキテクチャと同等の性能を発揮するようになりました。 GANは、創造と批評のサイクルでネットワークをペアリングし、例えば画像を生成する能力を研ぎ澄ますものです。 2018年の論文では、十分な計算があれば、オリジナルのGAN手法は、それ以降の手法の能力と一致すると報告されています

Kolter氏は、研究者は既存のものを調整するよりも、新しいアルゴリズムを作り、それが最先端となるまで調整することに意欲的であると述べています。後者は新規性が低いように見え、「論文を取るのがずっと難しくなる」と彼は指摘します。

Guttagは、アルゴリズムの発明者がその性能を他と徹底的に比較し、その画期的な技術が思ったほどでないことに気づくという阻害要因も存在すると言います。「あまりに慎重に比較しすぎるのは危険です」。また、比較は大変な作業です。 AI研究者は、さまざまなデータセット、チューニング方法、パフォーマンス指標、ベースラインを使用します。「すべてのアップルからアップルへの比較を行うことは、実際には不可能です」

過大なパフォーマンスの主張の一部は、論文が経験豊富な査読者よりも多い、この分野の爆発的な成長のせいと考えることができます。「この多くは成長痛のようだ」とBlalock氏は言います。ブラロックは、査読者にベンチマークとのより良い比較を主張するよう促し、より良いツールが助けになると述べている。今年初め、Blalock の共著者である MIT の研究者 Jose Gonzalez Ortiz は、刈り込みアルゴリズムの比較を容易にする ShrinkBench と呼ばれるソフトウェアをリリースしました。そして、ごくたまに、新しいアルゴリズムが実際のブレークスルーとなることがあります。「これはベンチャーキャピタルのポートフォリオのようなもので、実際にはうまくいっていないビジネスもあれば、目を見張るほどうまくいっているものもあります。

Alai

Eye-catching advances in some AI fields are not real

コメントを残すコメントをキャンセル

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル