少し前から半導体製造における機械学習の応用について考えています。半導体製造では、品質のばらつきを極限まで抑えることが大切です。ある指標においてブレが観測された場合、それがどこに起因するか。それを調べる問題を英語で attribution といいます。意訳すると、「責任度計算問題」とでもなるでしょうか。
先進的な半導体装置の中にはそういう解析機能を組み込んだものがあります。ある企業の装置のその手の機能を調べていたのですが、どうやら裏で動いているのがANOVA (analysis of variance)という統計学の手法らしい。ANOVAについては昔から知っていましたが、実応用ではそもそもF分布に基づく漸近的な近似が成り立つことはまずないし、だとするとANOVAには偏差-分散分解程度の意味しかなく、特にそれ以上の使い道がないのでまともに考えたことがありませんでした。
今回、その装置のANOVA解析の出力を正確に理解する必要があり、いろいろ調べていたのですが、改めて統計学という学問の病理を知り、切ない気持ちになりました。統計的機械学習の観点では、ANOVAは制約付きの混合ガウスモデルのあてはめに帰着することができます。そのように理論を見直すと、古典的ANOVAの、実務者から見た時の危険性がよくわかります。いろいろ問題はあるのですが、一番大きいのは次の2つでしょうか。
- ガウス分布の前提では、ばらつきの起源は、カテゴリごとの平均の違いと、分散の違いという2つがあり得るが、ANOVAでは、暗黙のうちに、分散の違いを無視して、平均の違いだけに着目している。
- たとえば 2-way ANOVAにおける2乗和分解公式は、二つのカテゴリカル変数の統計的独立性を暗に仮定している。
仮定を設けた上で理論を構築するのはまったく普通のことですが、頻度派の論法の問題は、実世界のデータ解析をする人の痛みとは全く無関係に天下り的に統計量を持ち出し、上記のような理論的な仮定に明示的に言及することなく、あたかもそれが普遍的な解析手段であるかのように見せかけることです。そういう病理は、ANOVAまで行かずとも、たとえば、以前『二つの分散:不偏推定量と最尤推定量のどちらを使うべきか』というエッセイにも書いた通り、平均値という単純素朴な概念にすら現れます。
機械学習の研究者の多くにとって、統計学者との付き合いは、その研究内容の著しい近接性にもかかわらず、時に緊張を強いるものである。少なくとも私にとってはそうであった。機械学習的方法論に統計学者たちがしばしば寄せる冷淡な態度や、主流派とおぼしき統計学者のベイズ理論への非妥協的な仕方での非難は、私にとって大きな謎の1つであった。
本書は、私のような疑問を持っていた機械学習の研究者にとって、極めて興味深い読み物になるだろう。21世紀の爆発的な機械学習の発展を前に、統計学者たちが何を得、そして何を失ったと考えているのか。なぜ彼らは、機械学習研究者から見て、気まぐれで無慈悲な王女様のように見えるのか。これらの答えの一端は、冒頭から3章くらいまでと、「むすび」にざっと目を通すだけで、何となく見えてくるであろう。
本書は、現代の統計学界の最高の巨人の一人であるエフロン教授の、言外のニュアンスをたっぷり含んだ気ままなエッセイという性質を持つがゆえ、翻訳プロジェクトは多大な困難を伴うものであった。計画は遅延を重ね、いくつかの章は監訳者自身が訳し直す羽目になり、いくつかの章では一部の訳者が監訳者としてほぼ再翻訳にも等しい作業を行わざるを得なかった。最低限の製品品質は達成できていると信じるが、正直、最後には力尽きた。読者からの批判を待ちたい。
統計学では、過去、ほとんど1世紀に渡り、頻度派とベイズ派の勢力争いが続いてきました。私のような部外者からすれば、論理的な決着はついていて、もはや論点すら存在しないように見えますが、業界内では宗派論争の色彩を帯びているようです。以前、アメリカの有名な頻度派の教授の研究室出身の若い統計学者と雑談していて、彼が、ガウス過程はベイズじゃない、すべて頻度派理論で議論できる、となどと強弁するのを聞いたとき、この対立はもうちょっとやそっとでは解消できないな、と思ったものでした。
ANOVAは、頻度派の思考過程の病理を示すとてもよい題材になってしまっています。
最近、物理学者や化学者が機械学習の手法を使って面白い発見を次々に報告しています。そこで使われるのは圧倒的に広義のベイズ派に属する機械学習の手法です。それもそのはず、ベイズ統計学の生成モデリング (generative modeling) という見方は、物理学者が世界を見る見方ととても相性が良いからです。天下りの統計量をありがたがるのは、実社会と乖離した狭い研究コミュニティの中だけ、というのは言い過ぎでしょうか。
理論的整合性の観点でも、実世界モデリングのための利便性という観点でも、歴史的評価という意味でもほぼ決着はついているようにも見えてしまうのですが、苦しい自己防衛を続ける頻度派統計学者の皆さんは、これからどこに行くのでしょうか。