【機械学習とは 連載目次】
1. 機械学習手法の概要
機械学習と称される手法は以前から様々なものが知られています。確率統計解析の世界では、正規分布をメインにした2σ、3σの管理の考え方、相関関係、回帰分析などが適用されてきました。以下、代表的なところを示してみました。もちろん、これらから派生して考案された手法も多くありますが、ここでは省略します。
2. 基本は分類
機械学習が行なっていることの本質は何かといえば、それは分類を行うための数学的計算処理です。ここではできるだけ数式を用いずに解説してみます。
例えば、以下のようなデータがあったとします。X、Yは何でもいいのですがここでは、Xは血糖値、Yはコレステロール値だとします。黒いサンプルは何かの疾患がある人で、緑サンプル は健康な方だったとします(もちろんこれは例示なので現実のデータではありません)。
ここで今、新しいサンプル(赤)が追加されたとして、この人は健康かどうかを判定しようとします。
黒い点と緑の点の集合がそれぞれどの辺りの境界で分けられるのかによって、この赤い点の方が健康かどうかが決まります。そこで、黒と緑の境界がどのあたりになるのかを線引きしようとします。
この例では左右どちらでも、緑側が健康な人のように見えます。どんな分け方もできそうですが、より簡単な数式で表現できそうなのは左側のケースでしょうか。 ただ、よく見てみると緑の側に分類されている領域の中にも、黒い点も入り込んでいます。実際のサンプルデータというのは往々にしてこのような状況であり、きれいな直線で分けるこ...
ここで赤い線の方向を断面にしてみたとします。左は境界線できっちりと白黒をつけるような分け方で、右側は境界を境にある確率でどっち側に属しているということを示しています。この右側の曲線はシグモイド曲線といわれ、このような分析はロジスティクス回帰分析といい、1958年に考案された分類モデルになります。
次回は、異常検知の解説です。