◆ 機械学習と統計学のモデルの違い
「機械学習と統計学のモデル、何が違うのですか」と質問をされることが度々あります。
ここで言っている統計学のモデルとは、多変量解析などに代表される回帰モデルや判別モデル、クラスター分析、主成分分析などです。私の中では明確に違うものだったのですが、よくよく話しを聞いてみると「なるほど…」という感じでした。そこで、今回は「機械学習と統計学のモデルの違い」というお話しです。
疑問の根本には「機械学習と統計学のモデルどちらにも似たような分析手法が登場する」というところにあるようです。例えば、書籍を読めば回帰モデルは統計学系の多変量解析の本や機械学習の本にも登場します。ニューラルネット系のモデルを回帰モデルの一種として扱う場合もあります。
1. 機械学習と統計学
機械学習とは人工知能における研究課題の一つで、人間が自然に行っているような学習をコンピュータ上で実現しようとする技術です。一方、統計学(多変量解析などを含む)はデータの特徴や規則性などを見出すことを目的とした学問です。
機械学習であるためには、何かしら「『学習』をコンピュータ上で実現」しなければなりません。そこに尽きると思います。
統計学のモデルの目的は、少なくともコンピュータ上の「学習」を目的としていません。データの特徴や規則性を見出すことで、人の解釈がポイントになります。コンピュータが普及する以前から統計学は存在しました。統計学はコンピュータがあれば便利ですが、なくても構いません。
実際、私が学生時代に手計算で平均値や分散を計算したり、回帰分析や分散分析、主成分分析などを行った記憶があります。しかし、コンピュータがないと機械学習は存在できないと思います。
2. 機械学習と統計学:回帰モデルを例に考える
再度言います。機械学習であるためには、何かしら「『学習』をコンピュータ上で実現」しなければなりません。問題は何を学習するのかです。その学習する何かが、統計学の代表的な多変量解析手法である「回帰モデル」でも問題ありません。
回帰モデルは、モデル式の定数と係数をデータから計算します。その「計算」を「学習」という言葉に言い換えれば、機械学習の数理モデルとしても問題なさそうです。「計算」を「学習」と言い換えるには何が必要でしょうか。
では学習とは何でしょうか。直観的には分かりますが、厳密な定義というと言葉に表し憎いものです。Wikipediaには、以下のように記載されていました。
『学習(がくしゅう)は、体験や伝聞などによる経験を蓄えることである。生理学や心理学においては、経験によって動物(人間を含め)の行動が変容することを指す。繰り返し行う学習を練習(れんしゅう)という。』こちらも、異論があるかもしれませんが、この定義をもとに話しを進めます。
3. 機械学習と統計学:蓄えたデータによって〇〇が変容する
先ほどの定義から、以下の文章を抜粋して考えてみます。「経験によって動物(人間を含め)の行動が変容すること」この文章の前には、次のような文章も書かれています。「体験や伝聞などによる経験を蓄えること」体験をデータに置き換えれば、〇〇によるデータを蓄える。データによって〇〇が変容する。...