データ環境によって成長が大きく異なるAI データ分析講座(その123)

更新日

投稿日

データ分析

◆ ぐれるAI、オタクになるAI

 フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと同等なのが正しいかどうか分からない状態の情報を報道してしまうことです。問題は、この偽情報が正しいかどうか分からないものなのに、多くの人が信じることで「正しい情報」と見なされてしまうことです。この問題は人間だけでなく、データサイエンス全般、最近流行りの機械学習やAIにとっても、とても大きなことです。今回は「ぐれるAI、オタクになるAI」というお話しです。

1、「女性はマルチタスクが得意」という都市伝説

 例えば「女性はマルチタスク※1が得意」という都市伝説があります。都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。この根拠になっているのは「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)※2が、女性は男性に比べ厚い」という研究結果です。この研究のサンプルが20人と少なかったため、100人に増やして研究がされました。その結果「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。100人でも少ないということなのか、その後イスラエル・テルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。

 しかし「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。なぜでしょうか。「女性はマルチタスクが得意」の方が「マルチタスクの得意不得意に性差なし」よりも、話題性というか面白みがあるからでしょうか。この手の研究は今でも実施されているようで、結論が二転三転しています。よく分からない、というのが本当のところではないでしょうか。

※1. マルチタスク=複数の作業を同時、もしくは短期間に並行して切り替えながら実行すること
※2
. 脳梁=左右の大脳皮質の間で情報をやり取りする経路

2、フェイクなデータの存在は由々しき事態

 データサイエンスやAIにとって、フェイクなデータの存在は由々しき事態です。そのデータで構築した予測モデルの予測結果は正しいでしょうか。そのデータで学習したAIはどうなるのでしょうか。あまりよろしくないことだけは分かります。誤った結論や行動につながる可能性があります。正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば問題はないかもしれません。

3、AIチャットボット   ~ ぐれた「Tay(テイ)」、オタクな「りんな」

 最近何かと話題のAIはどうでしょうか。身近なAIにチャットボットというものがあります。文章や音声を通じて会話を自動的に行うプログラムのことです。身近過ぎて、意識しないで生活している人も多いかもしれません。
 マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。人種差別的発言や陰謀論、ヘイトスピーチなどです。
 では、同社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。日本のAIチャットボット「りんな」は「Tay」とは全くの別人に成長しました。オタクになったのです。

4、データ環境でAIの成長は異なる

 このようにデータ環境によって、AIの成長が大きく異なります。つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。子どもを教育するかのように、AIを教育する必要があるかもしれません。正しいデータを使いAIを学習すればいいというわけでもありません。正しいデータを使ったからといって、人間が思い描くようなAIになるとは限らないからです。人間社会にとって脅威となるAIが登場するかもしれません。

5、「人類を滅亡させる」と発言

 ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」という記事(2016年3月30日)が掲載されました。Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」……と問題発言をしました。その後「冗談よ」とばかりに笑みを浮かべたそうです。「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。つまりAIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。

6、人間が思うようにできないのは、昔からある問題

 この問題は、最近の話ではありません。昔からある問題です。予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。さらに、正しいデータだけで学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。試行錯誤しながら、モデルを構築していきます。実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。

7、データサイエンス全体の問題

 この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。正しくないデータが混じっている状態で、ドメインと結びつけざるを得ない状況はいくらでもあります。データサイエンティストの真価が問われます。しか...

データ分析

◆ ぐれるAI、オタクになるAI

 フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと同等なのが正しいかどうか分からない状態の情報を報道してしまうことです。問題は、この偽情報が正しいかどうか分からないものなのに、多くの人が信じることで「正しい情報」と見なされてしまうことです。この問題は人間だけでなく、データサイエンス全般、最近流行りの機械学習やAIにとっても、とても大きなことです。今回は「ぐれるAI、オタクになるAI」というお話しです。

1、「女性はマルチタスクが得意」という都市伝説

 例えば「女性はマルチタスク※1が得意」という都市伝説があります。都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。この根拠になっているのは「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)※2が、女性は男性に比べ厚い」という研究結果です。この研究のサンプルが20人と少なかったため、100人に増やして研究がされました。その結果「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。100人でも少ないということなのか、その後イスラエル・テルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。

 しかし「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。なぜでしょうか。「女性はマルチタスクが得意」の方が「マルチタスクの得意不得意に性差なし」よりも、話題性というか面白みがあるからでしょうか。この手の研究は今でも実施されているようで、結論が二転三転しています。よく分からない、というのが本当のところではないでしょうか。

※1. マルチタスク=複数の作業を同時、もしくは短期間に並行して切り替えながら実行すること
※2
. 脳梁=左右の大脳皮質の間で情報をやり取りする経路

2、フェイクなデータの存在は由々しき事態

 データサイエンスやAIにとって、フェイクなデータの存在は由々しき事態です。そのデータで構築した予測モデルの予測結果は正しいでしょうか。そのデータで学習したAIはどうなるのでしょうか。あまりよろしくないことだけは分かります。誤った結論や行動につながる可能性があります。正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば問題はないかもしれません。

3、AIチャットボット   ~ ぐれた「Tay(テイ)」、オタクな「りんな」

 最近何かと話題のAIはどうでしょうか。身近なAIにチャットボットというものがあります。文章や音声を通じて会話を自動的に行うプログラムのことです。身近過ぎて、意識しないで生活している人も多いかもしれません。
 マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。人種差別的発言や陰謀論、ヘイトスピーチなどです。
 では、同社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。日本のAIチャットボット「りんな」は「Tay」とは全くの別人に成長しました。オタクになったのです。

4、データ環境でAIの成長は異なる

 このようにデータ環境によって、AIの成長が大きく異なります。つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。子どもを教育するかのように、AIを教育する必要があるかもしれません。正しいデータを使いAIを学習すればいいというわけでもありません。正しいデータを使ったからといって、人間が思い描くようなAIになるとは限らないからです。人間社会にとって脅威となるAIが登場するかもしれません。

5、「人類を滅亡させる」と発言

 ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」という記事(2016年3月30日)が掲載されました。Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」……と問題発言をしました。その後「冗談よ」とばかりに笑みを浮かべたそうです。「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。つまりAIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。

6、人間が思うようにできないのは、昔からある問題

 この問題は、最近の話ではありません。昔からある問題です。予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。さらに、正しいデータだけで学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。試行錯誤しながら、モデルを構築していきます。実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。

7、データサイエンス全体の問題

 この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。正しくないデータが混じっている状態で、ドメインと結びつけざるを得ない状況はいくらでもあります。データサイエンティストの真価が問われます。しかしデータサイエンティストだけでは荷が重すぎます。データサイエンティストだけでビジネス成果を出すのは大変です。データリテラシーのあるビジネスパーソンが必要です。直接的にデータサイエンティストと関わらなくても、データリテラシーのあるビジネスパーソンが多いほど、データサイエンスの実務活用は進みます。

 実際、データリテラシーの高い企業の方が、そうでない企業に比べ収益が高いというデータがあるぐらいです。BI(ビジネスインテリジェンス)ツールを提供しているクリックテック社の調査によると「データリテラシー・スコアの高い組織は企業価値が最大5%高いことが判明」「日本企業のデータリテラシー指数は54.9スコアで、グローバルで最も低い結果に」などとなっています。

8、全社的なデータリテラシーの向上を

 データ分析・活用などで成果をあげるためには、データサイエンティストだけでなく、そのサポートとする人財、さらには全社的なデータリテラシーの向上が必要です。なぜならば汚いかもしれないデータであればあるほど「人」が関与する部分が大きくなるからです。AIや統計モデルなどから出力されたものを、どの程度汚いかを前提に人が扱う必要が出てくるからです。どこまで参考にすべきか、どこが怪しいのか、どの程度割り引いて考えるべきかなどです。このため、統計解析や統計モデル、機械学習、AIなどのユーザーであるビジネスパーソン自体に、データリテラシーが備わってくることが重要になってきます。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
課題解決アプローチ データ分析講座(その101)

  ◆ データ分析を活用した「課題解決アプローチ」  データを上手く分析し、そして目の前にある課題を解決する。もっともベタで「何か特別な方法...

  ◆ データ分析を活用した「課題解決アプローチ」  データを上手く分析し、そして目の前にある課題を解決する。もっともベタで「何か特別な方法...


主成分分析は特徴量の選択手法ではない、正しい特徴量選択方法とは:データ分析講座(その355)

【目次】  ▼さらに深く学ぶなら!「データ分析」に関するセミナーはこちら! データサイエンスの進展に伴い、特徴量選択(説...

【目次】  ▼さらに深く学ぶなら!「データ分析」に関するセミナーはこちら! データサイエンスの進展に伴い、特徴量選択(説...


需要予測モデル構築時の検討すべきポイント データ分析講座(その251)

  需要予測はビジネスの現場では非常に重要なことです。経験と勘による予測は、時間経過とともに上手く予測できなくなる危険性があります。なによ...

  需要予測はビジネスの現場では非常に重要なことです。経験と勘による予測は、時間経過とともに上手く予測できなくなる危険性があります。なによ...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集と開発活動、営業の役割‐  製品・技術開発力強化策の事例(その12)

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...


‐販路開拓に関する問題 第1回‐  製品・技術開発力強化策の事例(その17)

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...

 前回の事例その16に続いて解説します。開発が完了したから販売先を探す。そのような考え方で開発に従事することは根本的に間違っている事は既に述べました。開発...


中小製造業とIoTの波

 「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...

 「IoT(アイオーティー)」の波が、中小製造業にどのような影響をおよぼすのか、具体的にどのような変化がこの業界に訪れるのかについて、解説します。   ...