2022年に登場したChatGPTに始まる生成AIは、インターネットの登場と同じくらいの深遠な影響を知識人の生活にもたらしました。ChatGPTの最大の発見は、言語を自己教示(self-supervised)型学習という方法で学習させると、モデル表現能力がある一定能力を超えた時点で、「創発(emergence)」という現象が生ずる、という事実です。自己教示型学習というのは、この場合で言えば、テキストの一部の語を隠して、その語が何かを当てる、というタイプの自問自答を繰り返すことです。創発、というのは、AIが人間のようにある意味行間を読む能力を獲得することです。その結果、ChatGPTとの対話は、まるで人間と話しているように感じられます。
テキストに加えて画像や音声においても、一般人が驚くような機能が次々に盛り込まれ、このような爆発的な技術進化がどこまで続くのだろうと思っている人も多いと思います。本記事執筆時点(2025年4月)において、業界的なキーワードは、「AIエージェント」です。エージェントの最も素朴な例は、調査エージェントでしょうか。生成AIに、何かの注文を出すと、勝手に調べてレポートを書いてくれる、というやつです。コンサートチケットを買ったり、旅行の予約をしたり、などのシナリオが今考えられています。通常のコンピュータによる業務自動化と何が違うのかというと、いちいち詳細まで指示を出さなくても、適当によきに計らってくれるというのがポイントです。
生成AIが近未来に進む方向を占うための重要な文献がGoogle DeepMindのウェブサイトで、2025年4月10日に公開されました。
David Silver really hits it out of the park in this podcast. The paper "Welcome to the Era of Experience" is here: https://t.co/Y6m4jLRjnh. https://t.co/iaqw4XuHXK
— Richard Sutton (@RichardSSutton) April 11, 2025
"Welcome to the Era of Experience" と題された論文において、著者らは、現代の生成AIを "human-centric" な方法の到達点を表すものだと考えます。この human-centric というのは誉め言葉ではなく、人間が直接生成したテキストや画像などのデータに基づいているという意味です。生成AIが human-derived なデータにのみ依拠している、という認識は重要です。多くの非専門家は、この点の認識が甘いため、今の生成AIのユースケースがどこまでも適用可能だと思ってしまいがちですが、それは危険です。上記の自己教示学習が動く最大の理由は、人間の知性で生の信号を処理することで得られる劇的な簡単化だと思われるからです。我々の行動はコンテキストに強く縛られており、そこからはみ出ることはまれです。生成AIが人間のように見えるのは、我々の行動の多様性の乏しさがゆえです。言い換えると、アルファベットのあらゆる組み合わせで表現できる数学的な情報量のうちほんのちっぽけな部分しか人間は使っていないということです。高々100個程度の元素で表現される材料科学の世界のデータには人間の意図が直接関与しているわけではありませんが、数百年の人間の努力の結果、現象を支配する「言語」が把握されている珍しい例になっています。
- 人間の知的活動から派生するデータ("human-drived")
- テキスト
- 音声
- 画像(撮影は人間の意図が反映されている)
- 化学式
- など
- データ生成に人間の意図が関与していないデータ
- 自然現象のセンサーデータ
- 株価(あまりにも多数の人間が関与しているため、個々人の意図は事実上かき消されている)
- 人体からのセンサーデータ
- など
人間の知的活動に派生するデータには限りがあり、早晩使い果たされるため、human-centric な方法論を乗り越える次世代のパラダイムが必要だ、というのが論文の主旨です。では次に何が来るのか。著者らが想定しているのが、ネイティブに強化学習を組み込んだ複数のAIエージェントが自律的に学習と協業を行う世界です。
この「協業」の部分については論文では願望以上のものは書かれていませんので、どのようにAIエージェントが強化学習を行うかの方が重要です。論文によれば、次世代のAIエージェントは、テキスト情報のみならず物理センサー情報等も活用して自律的にデータを集め、報酬(reward)と呼ばれる情報を頼りに自らを鍛えてゆくようなものです。
人間の作った情報に直接依拠しないという点において、これは大きな進歩になりえます。しかしここで問題なのは、だれが報酬を決めるのか、という問題です。少し長いですが重要な点なので、論文から引用しましょう。
To discover new ideas that go far beyond existing human knowledge, it is instead necessary to use grounded rewards: signals that arise from the environment itself. For example, a health assistant could ground the user’s health goals into a reward based on a combination of signals such as their resting heart rate, sleep duration, and activity levels, while an educational assistant could use exam results to provide a grounded reward for language learning. Similarly, a science agent with a goal to reduce global warming might use a reward based on empirical observations of carbon dioxide levels, while a goal to discover a stronger material might be grounded in a combination of measurements from a materials simulator, such as tensile strength or Young’s modulus.
人間の知識の枠を超えるには、環境に本質的に由来する情報としての報酬を使う必要がある。例えば、健康維持エージェントは、安静時心拍数、睡眠時間、活動レベルなどの複数の指標を組み合わせた報酬に、ユーザーの健康目標を結びつけることができよう。また、教育エージェントは試験結果を用いて、言語学習のための基盤となる報酬を提供することもできよう。同様に、地球温暖化を抑制することを目的とする科学エージェントなら、二酸化炭素レベルの実測値に基づく報酬を使えるかもしれないし、より強い材料を発見するという目的の場合は、材料シミュレーターから得られる引張強度やヤング率などの複数の測定値に基づく報酬を活用することが考えられる。
ここでは、測定可能な量と、目指す目的を表現する数値指標の間の関数形が(すなわち報酬関数の形が)、自明に知られていることが前提になっています。確かに簡単な応用ではそういうこともあるかもしれません。しかし私の知る限り、大多数の実応用では、評価指標と観測量の間の関係はよくわからないのが普通です。 たとえば、半導体装置の劣化検知を考えると、測定されているセンサーデータは何10個もありますが、どうなったら製品品質に問題をもたらす程度に劣化するのか、というのは、簡単なルールで書けるほど単純ではありません。劣化シナリオには未知のもの既知のもの含めて多数あり、なおかつ、使用する製造レシピ、その装置の前の工程での状況など、「情報としては存在するかもしれないが、そこまで考えると収拾がつかなくなるデータ」が無数にあるからです。
リアリティの欠如から考えて、Silver & Suttonはおそらく、実世界のビジネスデータの解析にかかわった経験が乏しいのかもしれません。報酬関数を設計するためには、まず、結果に関与する変数が列挙されていなければなりません。これ自体、AIではフレーム問題といわれ難問と考えられています。問題の枠組みを決める問題、ということです。仮に運よくフレームすなわち変数セットが決まったとしても、たとえば異常判定ルール(すなわち、負の報酬を与える関数形)を求める問題は自明ではありません。
この点すらも、実データ解析経験がないと理解しにくいところでしょう。普通の人が想像しがちなものは「体温が37度以上なら異常」みたいな素朴単変数ルールですが、そういう自明なものは最初から問題にはなりません。実応用上で解かなければならないのは、「平熱だしのども赤くないし下痢しているわけでもないが、どうも体調が悪い」みたいなタイプの問題だからです。考える要因が2個や3個ならいいとして、10個や20個になると考えねばならない状況が指数関数的に増え、なおかつ、手持ちのデータでその組み合わせが全部網羅されていない、みたいな状況が起こり、異常判定ルールの獲得は大変高度な問題になりえます。
この点から考えるに、 これから爆発的に流行するであろうAIエージェントの行き着く先が何となく見えてきます。論文では報酬関数は柔軟に決めてよい、データに基づいて学習されるニューラルネットワークでもよい、などと言っていますが、結局、そこに人間から見た何かの価値判断が必要なことには変わりありません。
逆に言えば、人間の価値判断なしにAIエージェントを野放しにしてよいわけはありません。上に二酸化炭素の例がありますが、AIエージェントの暴走の結果、二酸化炭素濃度が極端に下がり、植物の光合成ができなくなり枯死に至ったらどうでしょう。
経験の時代、という見方は技術進化の方向としては正しいのですが、報酬関数の設計という中核的要素において、フレーム問題と知識獲得のボトルネックという問題から逃れられないことは明らかなように見えます。だとしたら、おそらく今後数年続くであろうAIエージェントの大流行と、それに対する反作用としての幻滅期の到来は不可避なように思います。
おそらくそれが、次のAIの冬の時代の始まりとなるでしょう。