世界遺産マイスター/国宝の伝道師Kの「地球に感謝!」

世界遺産検定マイスター、国宝の伝道師保有の読書好き。書籍、世界遺産、国宝という切り口でご案内します。最近は「仕事の心理学」として、様々な事象を心理学的見地から考察しています。

【読了】西内啓「統計学が最強の学問である 実践編」

今年108冊目読了。東京大学大学院医学系研究科医療コミュニケーション学分野助教の著者が、データ分析のための思考と方法を解説する一冊。


前作の続編であるが、実践的になっているので、こちらのほうがビジネスユーザーとしては実感に少しは近くなってくる。


そもそも統計をどう使うかについては「データ分析を因果関係の洞察、すなわち、最終的にコントロールしたい結果とそれに影響を与えうる原因の候補という観点で捉える」「分析による因果関係の洞察にあたり、1)平均値や割合など統計指標の本質的な意味の理解2)データを点ではなく幅で捉えるという考え方3)何の値を何ごとに集計すべきかという考え方、を身に着けるべき」「説明変数の優先付けは●その因果関係が『当たり前すぎる』ものではないこと●アウトカムへの影響が明らかになっていたとしてその原因のコントロールが容易であること●いままでにあまり注目して分析されたことがない、を見る」と提言する。


そして、言われればそうだなぁと思うのが「たいていのデータの範囲を把握するため、分散を感覚的にわかりやすくしたのが標準偏差。単に、標準的な平均値からの偏り」「正規分布らしきバラつき方をしていようがいまいが、だいたい平均値±2SDの範囲あたりにデータが存在すると考えて間違いではない」として「平均値の標準誤差=元データの標準偏差/√平均値の計算に用いたデータの件数」という関係性を明らかにしてくる点。さらに「いま自分たちが集められるデータの範囲の中での仮設の妥当性に焦点を当てる」という考え方は、実際の仕事に活用できそう。


回帰分析というものがよくわかっていなかったのだが「量的な説明変数が増えるごとに、平均してどれだけアウトカムが増えるか/減るかという傾向性を示すような分析手法」という説明はわかりやすい。その罠として「1つの説明変数と1つのアウトカムとの間の関係性だけを分析してしまうと、見落としていた別の要因によって結果がゆがめられている、ということがしばしばある」があるが、それの答えが「重回帰分析によって複数の説明変数とアウトカムとの関連性を一気に分析する」と書かれていて、そんなものなのか、と思う。「業務で説明変数の候補が大量にあるデータがあるのであれば、とりあえずすべての説明変数を重回帰分析にかけてp値が小さく回帰係数が大きいものを探索する、というやり方が圧倒的に多い」という感覚は、まったくないのだが…


ロジスティック回帰については「記号論理学の分野では、二値論理と呼ばれる、該当するか否かという論理を扱うわけだが、この二値論理に関するアウトカムを分析するための回帰分析である」とし、「質的な説明変数とアウトカムはすべて二値変数に変換して、量的なアウトカムに対しては重回帰分析を行う。二値のアウトカムに対してはロジスティック回帰を使う」と説明する。


データの背後を見抜く手法については「現実的に測定できる値を背後から左右する、見も触れもできない何かのことを因子と呼び、因子分析はそれを数学的に明らかにしようとする」「或る程度の幅を持っていくつかの因子数で結果を確認し、最もしっくりきたものを選んで、念のため数理的な妥当性を確認する、といったプロセスが因子分析ではしばしば行われる」と、「視覚化することができれば人間の目と直感で行うことができるであろうグループ分けを、視覚化できない多数の変数から自動的に行うための手法がクラスター分析」「それぞれのクラスターに名前を付けるという作業が重要になる」と2つを挙げる。そして「因子分析についても、クラスター分析についても、ビジネスの場で使う場合、その本質は『複数の変数をわかりやすく扱いやすい形にすることができる』という点にある」と説いてくれる。


「割合と平均値というまったく別物の集計方法が存在しているわけではなく、数の形で表現できない質的変数については、それぞれの分類についての1か0かという形で表現される『該当するか度合い』という量的変数を考え、その平均値を計算している」「データの背後にある真の値に興味があるのであれば、平均値を使っておけばよい」という考え方は、そうなんだ、そんなものなのか、という感想しか出てこない…


とうてい理解できた感がないので、この本に出てきた初心者向け入門書でも読んでみるかな…