1. トップページ
  2. DXコラム
  3. 【コラム】データサイエンティストの心得「信頼性が高く効果的なデータ分析法とは」

【コラム】データサイエンティストの心得その5
「信頼性が高く効果的なデータ分析法とは」


 本コラムは、データサイエンティスト・神山が全4回シリーズで
データ活用の面白さと難しさを語ります。
データサイエンティストのこぼれ話としてお楽しみいただければ幸いです。



皆さんは、データ分析にどんなイメージがありますか?
話題になっている昨今、どんなことでもデータで視覚化し、問題を解決に導くことが
できる素晴らしいイメージを持っている方もいるかもしれませんね。

しかし、これまでの「データサイエンティストの心得」シリーズで触れてきたように、
データの解釈は難しいです。例えば、年収の高さと幸福感の関係を分析して、年収
が高い人は幸福感も高いというデータが得られたとします(※)。
このようなデータを見ると、「年収が高いから幸福感が高い」という因果関係を考えが
ちです。しかし、実際には「幸福感が高いから仕事にも意欲的で年収が高い」とも考
えられます。
このように単純なデータ分析では因果関係が分からないのに、因果関係を決めつけ
てしまう
ことがよくあるのです


(※)学術の世界では年収7万5000ドル(約800万円)が幸福感のピークで
それ以上の年収があっても幸福感はあがらないことが分かっています。
引用文献:Daniel Kahneman and Angus Deaton(2010).High income improves evaluation of life
but not emotional well-being. Proceedings of the National Academy of Sciences,107(38),16489-93.



では、因果関係を正しく調べるための信頼性が高いデータ分析を行うには
どうしたらいいのでしょうか?

例えば、「新しい治療法が人間のストレスを緩和する」という因果関係を調べたいとし
ます。治療法を実践してみて、ストレスが緩和したら効果があったと結論づけたいの
ですが、このケースではその治療法を行わなかった場合にどうなったかが分からな
いので比較ができません。そのため、これだけでは新しい治療方法に効果がある信
頼性が高いデータとは言えないのです。

そこで、信頼性の高いデータ分析では、新しい治療法を行うグループと偽の治療法
を行うグループをランダムに振り分けて、それぞれの治療法の効果を測定して比較
します。
こうすることによって、新しい治療法が偽の治療法よりも治療効果が高いとしたら、新
しい治療法がストレスを緩和することを証明できます。因果関係を評価するためのこ
のようなデータ分析方法は「ランダム化比較試験(RCT)」と呼ばれ、信頼性の高い研
究方法とされています。


▽研究方法による信頼性の高さのレベル


出所:横浜市立大学眼科先進医療学講座「疾患の臨床研究・介入研究」
http://www-user.yokohama-cu.ac.jp/~amod/kenkyu/rinsho.html


ランダム化比較試験は医療の世界では非常に重視されています。
命がかかっているわけですから、1%でも効果の高い医療を追及して日々、厳密な
データ分析を欠かさないのです。

残念ながらデータ分析については誤解されている面もあり、データばかりで判断する
人は「人間味がない」と批判されることがあります。
実際は医療の世界のように、データ分析が今をよりよくしたいという"温かい想い"
らきているという考え方がもっと広がればいいなと私は思います。
そのためにも、ランダム化比較試験のような厳密な分析が必要だということがこの
コラムで伝われば筆者冥利につきます。


データサイエンス関連研修のご紹介
・ビジネスデータの分析研修~職場で活かせる統計の基礎とデータ活用法を学ぶ
https://www.insource.co.jp/bup/bup_business_data_analysis.html
・(プログラミング初心者向け)Python基礎研修(3日間)
https://www.insource.co.jp/bup/bup-python-basic-3days.html
・AI開発基礎研修~Pythonで機械学習・ディープラーニングを開発する編(5日間)
https://www.insource.co.jp/bup/bup-python-deep-learning.html


※本記事は2021年10月20日現在の情報です。

お問合せ

まずはお電話かメールにてお気軽にご相談ください

お電話でのお問合せ

03-5577-3203

PAGE TOP