データ環境によって成長が大きく異なるAI データ分析講座(その123)

更新日

投稿日

データ分析

◆ ぐれるAI、オタクになるAI

 フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと同等なのが正しいかどうか分からない状態の情報を報道してしまうことです。問題は、この偽情報が正しいかどうか分からないものなのに、多くの人が信じることで「正しい情報」と見なされてしまうことです。この問題は人間だけでなく、データサイエンス全般、最近流行りの機械学習やAIにとっても、とても大きなことです。今回は「ぐれるAI、オタクになるAI」というお話しです。

1、「女性はマルチタスクが得意」という都市伝説

 例えば「女性はマルチタスク※1が得意」という都市伝説があります。都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。この根拠になっているのは「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)※2が、女性は男性に比べ厚い」という研究結果です。この研究のサンプルが20人と少なかったため、100人に増やして研究がされました。その結果「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。100人でも少ないということなのか、その後イスラエル・テルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。

 しかし「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。なぜでしょうか。「女性はマルチタスクが得意」の方が「マルチタスクの得意不得意に性差なし」よりも、話題性というか面白みがあるからでしょうか。この手の研究は今でも実施されているようで、結論が二転三転しています。よく分からない、というのが本当のところではないでしょうか。

※1. マルチタスク=複数の作業を同時、もしくは短期間に並行して切り替えながら実行すること
※2
. 脳梁=左右の大脳皮質の間で情報をやり取りする経路

2、フェイクなデータの存在は由々しき事態

 データサイエンスやAIにとって、フェイクなデータの存在は由々しき事態です。そのデータで構築した予測モデルの予測結果は正しいでしょうか。そのデータで学習したAIはどうなるのでしょうか。あまりよろしくないことだけは分かります。誤った結論や行動につながる可能性があります。正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば問題はないかもしれません。

3、AIチャットボット   ~ ぐれた「Tay(テイ)」、オタクな「りんな」

 最近何かと話題のAIはどうでしょうか。身近なAIにチャットボットというものがあります。文章や音声を通じて会話を自動的に行うプログラムのことです。身近過ぎて、意識しないで生活している人も多いかもしれません。
 マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。人種差別的発言や陰謀論、ヘイトスピーチなどです。
 では、同社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。日本のAIチャットボット「りんな」は「Tay」とは全くの別人に成長しました。オタクになったのです。

4、データ環境でAIの成長は異なる

 このようにデータ環境によって、AIの成長が大きく異なります。つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。子どもを教育するかのように、AIを教育する必要があるかもしれません。正しいデータを使いAIを学習すればいいというわけでもありません。正しいデータを使ったからといって、人間が思い描くようなAIになるとは限らないからです。人間社会にとって脅威となるAIが登場するかもしれません。

5、「人類を滅亡させる」と発言

 ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」という記事(2016年3月30日)が掲載されました。Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」……と問題発言をしました。その後「冗談よ」とばかりに笑みを浮かべたそうです。「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。つまりAIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。

6、人間が思うようにできないのは、昔からある問題

 この問題は、最近の話ではありません。昔からある問題です。予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。さらに、正しいデータだけで学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。試行錯誤しながら、モデルを構築していきます。実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。

7、データサイエンス全体の問題

 この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。正しくないデータが混じっている状態で、ドメインと結びつけざるを得ない状況はいくらでもあります。データサイエンティストの真価が問われます。しか...

データ分析

◆ ぐれるAI、オタクになるAI

 フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと同等なのが正しいかどうか分からない状態の情報を報道してしまうことです。問題は、この偽情報が正しいかどうか分からないものなのに、多くの人が信じることで「正しい情報」と見なされてしまうことです。この問題は人間だけでなく、データサイエンス全般、最近流行りの機械学習やAIにとっても、とても大きなことです。今回は「ぐれるAI、オタクになるAI」というお話しです。

1、「女性はマルチタスクが得意」という都市伝説

 例えば「女性はマルチタスク※1が得意」という都市伝説があります。都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。この根拠になっているのは「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)※2が、女性は男性に比べ厚い」という研究結果です。この研究のサンプルが20人と少なかったため、100人に増やして研究がされました。その結果「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。100人でも少ないということなのか、その後イスラエル・テルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。

 しかし「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。なぜでしょうか。「女性はマルチタスクが得意」の方が「マルチタスクの得意不得意に性差なし」よりも、話題性というか面白みがあるからでしょうか。この手の研究は今でも実施されているようで、結論が二転三転しています。よく分からない、というのが本当のところではないでしょうか。

※1. マルチタスク=複数の作業を同時、もしくは短期間に並行して切り替えながら実行すること
※2
. 脳梁=左右の大脳皮質の間で情報をやり取りする経路

2、フェイクなデータの存在は由々しき事態

 データサイエンスやAIにとって、フェイクなデータの存在は由々しき事態です。そのデータで構築した予測モデルの予測結果は正しいでしょうか。そのデータで学習したAIはどうなるのでしょうか。あまりよろしくないことだけは分かります。誤った結論や行動につながる可能性があります。正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば問題はないかもしれません。

3、AIチャットボット   ~ ぐれた「Tay(テイ)」、オタクな「りんな」

 最近何かと話題のAIはどうでしょうか。身近なAIにチャットボットというものがあります。文章や音声を通じて会話を自動的に行うプログラムのことです。身近過ぎて、意識しないで生活している人も多いかもしれません。
 マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。人種差別的発言や陰謀論、ヘイトスピーチなどです。
 では、同社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。日本のAIチャットボット「りんな」は「Tay」とは全くの別人に成長しました。オタクになったのです。

4、データ環境でAIの成長は異なる

 このようにデータ環境によって、AIの成長が大きく異なります。つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。子どもを教育するかのように、AIを教育する必要があるかもしれません。正しいデータを使いAIを学習すればいいというわけでもありません。正しいデータを使ったからといって、人間が思い描くようなAIになるとは限らないからです。人間社会にとって脅威となるAIが登場するかもしれません。

5、「人類を滅亡させる」と発言

 ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」という記事(2016年3月30日)が掲載されました。Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」……と問題発言をしました。その後「冗談よ」とばかりに笑みを浮かべたそうです。「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。つまりAIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。

6、人間が思うようにできないのは、昔からある問題

 この問題は、最近の話ではありません。昔からある問題です。予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。さらに、正しいデータだけで学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。試行錯誤しながら、モデルを構築していきます。実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。

7、データサイエンス全体の問題

 この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。正しくないデータが混じっている状態で、ドメインと結びつけざるを得ない状況はいくらでもあります。データサイエンティストの真価が問われます。しかしデータサイエンティストだけでは荷が重すぎます。データサイエンティストだけでビジネス成果を出すのは大変です。データリテラシーのあるビジネスパーソンが必要です。直接的にデータサイエンティストと関わらなくても、データリテラシーのあるビジネスパーソンが多いほど、データサイエンスの実務活用は進みます。

 実際、データリテラシーの高い企業の方が、そうでない企業に比べ収益が高いというデータがあるぐらいです。BI(ビジネスインテリジェンス)ツールを提供しているクリックテック社の調査によると「データリテラシー・スコアの高い組織は企業価値が最大5%高いことが判明」「日本企業のデータリテラシー指数は54.9スコアで、グローバルで最も低い結果に」などとなっています。

8、全社的なデータリテラシーの向上を

 データ分析・活用などで成果をあげるためには、データサイエンティストだけでなく、そのサポートとする人財、さらには全社的なデータリテラシーの向上が必要です。なぜならば汚いかもしれないデータであればあるほど「人」が関与する部分が大きくなるからです。AIや統計モデルなどから出力されたものを、どの程度汚いかを前提に人が扱う必要が出てくるからです。どこまで参考にすべきか、どこが怪しいのか、どの程度割り引いて考えるべきかなどです。このため、統計解析や統計モデル、機械学習、AIなどのユーザーであるビジネスパーソン自体に、データリテラシーが備わってくることが重要になってきます。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
セキュリティ認証 制御システム(その7)

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...


セーフティシステムのセキュリティ対策 制御システム(その4)

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...

  【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3. リスク分析とセキュ...


なぜ、開票率数%で当確なのか? データ分析講座(その217)

    【この連載の前回:データ分析講座(その216)パレート指数による売上分析へのリンク】 各報道機関の選挙速報で、よく開票率...

    【この連載の前回:データ分析講座(その216)パレート指数による売上分析へのリンク】 各報道機関の選挙速報で、よく開票率...


「情報マネジメント一般」の活用事例

もっと見る
‐技術開発の目標について 第1回‐  製品・技術開発力強化策の事例(その15)

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...

 前回の事例その14に続いて解説します。製品開発を目指している企業の中には、テ-マが見つかったら、または、アイデアが閃いたら開発に取り組む。そのような淡い...


‐社内の問題克服による開発活動‐  製品・技術開発力強化策の事例(その14)

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...

 前回の事例その13に続いて解説します。社内における様々な問題を高いレベルで深く追及して解決することが、競争力のある技術を育成し、売れる製品を生み出す事に...


P値で行う統計リテラシー判定

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...

 「ピーチ」って聞いたら何を連想しますか、統計を学んでいる人に取っては「 P値 」が思い浮かぶはずです。統計学の素養がある程度備わっているか一言で知ろうと...