2019年7月30日火曜日

The Master Algorithm

 最近いくつかのところで The Master Algorithm (Domingos 2015) という本が話題になったのでざっと見てみました。日本でも翻訳作業が進行中らしいです。内容は、機械学習の歴史を概観し、最後に、著者のやっていたプロジェクトを押す、というものです。

(2021年5月更新。邦訳は「マスターアルゴリズム ─ 世界を再構築する『究極の機械学習』」)

著者によれば、機械学習は、記号論理派(Symbolist)、神経回路網派(Connectionist)、進化計算派(Evolutionary)、ベイズ派(Bayesian)、類推派(Analogizer)、という5つの流派からなっており、それを統合するのが著者の提案したマルコフ論理ネットワークとのことです。本書の前半はこれらの流派それぞれを、数式を使わずにノリで説明するものです。類推派って何だよと思うかもしれませんが、これは支持ベクトル分類器(support vector machine)に代表されるカーネル法のことです。著者自身は記号論理派に属し、"Symbolism is the shortest path to the Master Algorithm."(p.90)といったような信念が折に触れ語られます。 .

最後の2章がまとめらしき内容で、第9章ではマルコフ論理ネットワークを実装したAlchemyというシステムを、The Master Algorithm(究極のAI)、あるいはその未来像として紹介し、最後の10章では、プライバシーやシンギュラリティといった最近の話題にコメントを加えます。

この高名なAIの研究者が、究極のAI(The Master Algorithm)と言うからには何かアイディアがあるのだろうと思って読んでましたが、その答えとして論ずるのは、彼らのマルコフ論理ネットワーク。これは確かに、古典的なロジックの確率的拡張に当たるという意味では統合的な枠組みですが、不思議なことに、著者自身が記号表現派の最大の技術的問題として挙げた知識獲得のボトルネック(knowledge acquisition bottleneck, Chap.3, p.89の問題には何の言及もありません。事実と願望が混然一体になった物語は読むのに大変忍耐を要します。

9章の末尾に出てくるCanceRxという、仮想的ながん治療法発見システムの例は非常に示唆的です。医療診断システムこそ、かつてのAIの楽観と落胆の象徴であり、著者の属する記号論理派の工学的限界を示す象徴でもあるからです。一般に、論理が与えられ、その論理に基づく意思決定なり現象を表すデータが観測できれば、推論は数学的に可能です。その論理の集合の枠内で、いかなる質問にもなんらかの答えを与えることができるでしょう。確率的拡張のご利益により、予測が実現される確率も計算できます。おお、すばらしい!これぞ究極のAI!...ということにはならない、というのが、人工知能の研究史がまさに教えることです。知識獲得のボトルネックというのは、「いったい誰が論理の集合を決めてくれるのか」という問題です。論理は主語と述語からなりますので、主語と述語の集合のことです。これに関する著者の見込みは驚くほど単純です。
As before, the MLN (Markov logic network) doesn’t have to know a priori what the classes in the world are; it can learn them from data by hierarchical clustering. (Chap.9, p.257)
階層的クラスタリングをすれば、論理が列挙できる?クラスタリングのためには距離の定義された特徴空間が定義されていなければなりません。特徴空間を完全に客観的に決めることはできません。人間の観測できる範囲には限りがあるからです。そして観測というのもそれを実行し結果を保存するという意思の結果であり、どうやっても、人間が明示的に認識できる範囲を出られません。著者自身が冒頭で再三述べたロングテールのコンセプトとの関係も不明です。テールにしか現れない稀な現象をどうクラスターとして検知できるのでしょうか。10万人に一人の疾患をどうノイズからより分け見つけるのでしょう。Vapnik's principle を持ち出すまでもなく、工学的レベルでそれは解になりえないのです。

AIの産業応用の観点で、2015年くらいから爆発的に発展した深層学習が業界風景を一変させたのは疑う余地がありません。究極のAIと聞けば深層学習を思い浮かべる人が多いでしょう。深層学習の支持者たちのメッセージはもっと強く、明確です。データを集めよ。さらば論理を与えよう。論理、というのは、(1)低レベルのデータの表現から、意味のある高レベルの表現を抽出する論理、(2)未知の標本を得たときにそれについて何かを予測する論理、ということです。画像分類であれば、画像の中のどういう特徴が決め手になるのかという規則と、画像がどう分類されるのかについての論理(関数)が得られるということです。

しかし、実際には、データ取得に関する人間の偏見ないし限界という問題が常に付きまとい、長い研究の歴史の結果として「何をデータとして集めるか」という点に合意が確立している分野(画像認識、音声認識、自然言語処理)以外では、特徴量工学を不要にした、という深層学習支持者たちの主張が、どれだけ工学的・実用的に妥当なのかを結論を出すべく、今でも研究の努力が続けられています。これは当然でしょう。普通のカメラで飛行機の写真を撮っても、金属疲労による微細な亀裂は見つかりません。飛行機の破壊を予知するのが目的であれば、相応の計測装置が必要になります。ビッグデータは物理学の壁を超えることはできないのです。特徴量工学を不要にしたとしても、データをどう取得するかについての問い(しいて言えば観測工学)を避けて通ることは絶対にできません。

あえて斜めから見てみると、この著者の意図は、常識的に考えて The Master Algorithmという名前におそらく最も近いであろう深層学習(ないしConnectionist=神経回路派)をあえて主役から外すことで、著者が属する記号論理派の政治的復権を図る、というものだったのかもしれません。機械学習を、記号論理派、神経回路網派、進化計算派、ベイズ派、類推派、のように細分するところにも意図を感ぜざるを得ません。このようなコミュニティが存在するのは事実ですが、普通の研究者の常識では、神経回路派・ベイズ派・類推派は同じグループであり、自分たちの問題から派生した最適化問題を解くために進化計算派の協力を得たりしているという感じでしょう。つまりざっくり言えば、記号論理派、対、機械学習派、というような感じだと思います。

この辺の業界事情は、今年2019年に開かれたAAAIという人工知能分野のトップ会議で企画された討論からも垣間見えるところです。そのテーマは "The AI community today should continue to focus mostly on ML (machine learning) methods" ──これはAIという学問はどうあるべきかについての、記号論理派からの問題提起と理解すべきなのでしょう。

私は著者による機械学習の5つの流派(five tribes)という理解にも、確率論理が究極のAIであるという位置づけにも賛同できませんが、唯一、末尾付録の Further Readingのセクションは、一次資料が豊富に引用されたAIの研究史になっていて、この高名な研究者の研究業績に似合う輝きを感じました。

  • ペドロ・ドミンゴス  (著)
  • 神嶌 敏弘 (翻訳)
  • 出版社 : 講談社 (2021/4/23)
  • 発売日 : 2021/4/23
  • 言語 : 日本語
  • 単行本 : 522ページ
  • ISBN-10 : 4062192233
  • ISBN-13 : 978-4062192231




0 件のコメント:

コメントを投稿