データ解析の効率は、生データとその整理の仕方で大きく異なると言えます。 例えば、アンケート結果は単なる生データであり、そのままでは解析出来ません。解析の前にデータを項目別に並べ替える等の整理作業が必要です。
この整理作業の結果として得られた資料を「個票データ」と言います。 個票データが上手く纏められていれば解析もスピーディです。逆に、綺麗な個票データを作るにはデータ収集方法がより重要であり、採集フォーマット、対象、日時など、収集プランを熟慮し作成する事が求められます。個票データは解析のベースとなるデータなので、整理の段階で過度にバイアスが掛からないように注意が必要です。バイアスとは一部情報の強調、統合、排除です。
例えば喫煙者意識の調査で、喫煙容認派と嫌煙派を20代男女だけのデータで代表したり、データ収集手段や、時期、地域等、結果に関係する情報を外したり、また一部の情報を統合して(30代と40代の結果を足してしまうなど)整理したりする事で、解析により推測される結果にも影響が生じてしまいます。
個別データ作成の段階で、この様な解析誤差が発生する事は好ましくありません。偏りが無い解析を行うためには、過度な整理を伴わないデータが必要です。一方で我々が普段目にする統計情報は、個票データでは無く集計データです。
例えば喫煙容認派:嫌煙派=30%:70%などの様に既に個票データが整理・集約された情報なったしまっているデータです。普段メディアや各種機関から提供されるデータは集計データであり、個別データが公表されているケースはほとんどの場合ありません。それは標本データの収集に時間とコストがかかっており、貴重だからです。
一方で行政機関を中心に個票データを公表し、活用してもらおうと言う考えも広まっています。収集したデータは採取方法やエリア、期間などのバックデータがわかっていれば別の目的での解析にも利用が可能です(二次利用)。
喫煙意識のデータは喫煙・禁煙グッズ関係者、医療関係者、保険関係者等で用途がありますし、金融財産や貯蓄情報などはさらに多くの業界で活用されるでしょう。既に加工された二次情報は、冒頭で述べたようにバイアスが掛けられている場合もありますので、個票データの入手が可能であれば、それを用いて検証する事を推奨します。
また現時的には、個別データの共有は同一企業内でも実施されていると言えません。理由としては、データシェアの方法やルール、形態を決められていないからです。ルールを決めて共用サーバーに保存すれば各部署で採ったデータを繰り返し活用できるし、重複採取によるムダも減らせると思うのですが、シェア意識の欠如やセクショナリズムにより実行されません。
経営者が必要性を実感す...