統計学は科学・経済・社会を統べる!2

以前の記事で、統計学の重要性と、科学の信頼性に与える影響について書きました。今回は少し専門的になりますが、より具体的な事例について説明したいと思います。

研究者の皆さんなら誰でもご存知だと思いますが、得られたデータを統計処理する際に用いられる、Pという値があります。例えばAとBという2つの集団のある特徴の差に関する研究で、典型的にはP<0.05であれば、AとBという集団に科学的に有意な差があると扱われ、世の中のかなりの科学論文がこのP値をもとに科学的な結論を導いています。

果たして、どのくらいの研究者がこのP値について正しく理解しているでしょうか。大抵はただ機械的にP値を適用し、結論を導いているのではないかと思われます。正しく適用しているなら問題はないのですが、後に述べるように多くの論文で間違った使い方をされています。つまり、世の中の多くの科学論文の結論が本当は妥当ではないという由々しき事態が起こっています。

私は大学院で統計解析を学んだこともあり、この点については以前から大きな問題意識を持っていました。しかしながら、生物医学分野の研究者の中に統計を専門的に学んだ人が少ないこともあってか、この大きな問題が看過されているように思えてなりません。

前回の記事で述べたとおり、ビッグデータがますます重要になってくる昨今、自然科学・社会科学の全ての研究者だけでなく、医師、歯科医師、公衆衛生学実践者、政治家などあらゆる分野の人々が統計をある程度は学ぶ必要があると私は考えています。しかしながら実際は科学者の中ですらも統計学を適切に理解している人は少ないというのが現状です。P値を使う人は、専門家にならないまでも、正しい理解をするべきだと思います。

P値について知識を深めてもらうために、勤務先のブリガム・アンド・ウィメンズ病院の病理科学研修医向けの私の講義でもここ10年毎年取り上げています。この内容がとても重要なのでブログの読者のみなさんにもご紹介したいと思います。

P値について真に理解するには、P値を導き出す数式を持ち出す必要があります。しかし、中には難解なものもあるため、数式を極力使わずに重要な点を簡潔に説明していきたいと思います。

まず最初に伝えたいのは、P値は完全ではないということです。どういうことかというと、P値は研究対象の事象がある数理モデルに従うと仮定して得られた値であり、その仮定がそもそも完璧であることはまずないのです。

わかりやすく説明するために簡略化した具体例を用います。以下の図を見てください。

ある有限の集団T’において、A(男性)とB(女性)という2つの集団で遺伝子Gの変異(G+が変異あり、とG-が変異なし)の分布の違いが観察されたとします。果たして、遺伝子Gの変異は男女の間で科学的に有意な差(違い)があるのでしょうか?ここで、遺伝子Gの変異の男女差はこの研究集団T’だけに偶然みられた差であって、男女の間で本当は違いはないという仮説、または遺伝子Gの変異は男女の間で違いがあるという仮説の2つが考えられ、このいずれかに真実が含まれるはずです。

これを検証するために考えられたのが、A(男性)とB(女性)を含む、理論上の無限大の大きさの集団T(図①)と集団U(図②)です。集団Tでは、前者の仮説(すなわち男女差がない)を、集団Uでは後者の仮説(男女差がある)を真実とすることになります。どちらが真実かは、無限大の集団を見ることができないため知ることはできません。

仮に集団T(図①)が真実として、研究対象として「無作為に」一部を取り出した集団T’(研究対象)で、A(男性)とB(女性)の間で遺伝子Gの変異(G+とG-)の分布の違いが観察されたとします。このとき、T’で観察されている分布の違い以上の大きい差が観察される確率がP値となります。したがって、P値が低いときには、集団Tから無作為にサンプルT’抽出したときに、その差(あるいはもっと大きな差)が観察される確率が小さいことになり、集団Tの前提条件である仮説(AとBに違いがない)が否定される、というのが一般的に行われている統計の検定です。したがって、P値が低いときには、AとBが違うという仮説の確率が、研究を行う前の確率(事前確率)と比較して少しは大きくなります。前述のとおり、このP値があらゆる科学論文の証明の根拠として使われています。

お気づきの方もいると思いますが、この証明手法は集団T(図①)の仮説(AとBに違いがない)から観察結果が起こりにくいというのを計算しただけで、集団U(図②)の存在(正確にはその事前確率)については全く考慮に入れていません。したがって、P値を使う検定は前提条件からして不完全なのです。

例えば、研究をする以前に、集団U(図②)(男女差がある)の仮説が真実である事前確率が極めて低く、1%しかない場合はどうでしょう。すなわち集団T(図①)(男女差がない)が真実という事前確率は99%です。この場合、たとえP値が0.05であっても集団Tの仮説(男女差がない)のが真実である確率は約94%という結果がでてきます(Benjamin et al. Nat Hum Behav 2018のデータとベイズ理論に基づく)。すなわち、男女差があるというのが真実である確率は1%から6%にしか上がっていません。このようにP値が0.05以下でも、論文の結論が妥当でない場合が多くあるのです。

何度も言うように、このP値による検定は、あらゆる科学論文の仮説の証明のために利用されています。大体の場合、P<0.05、つまり5%以下であればAとBの間に科学的に有意差があるとされます。ただしこうした結論が妥当なためには、集団U(図②)(男女差がある)の仮説が真実である事前確率が比較的高いという前提が必要なのです。    

あらゆる科学論文の根拠として用いられているP値による検定がこのように不完全であるということを知らない人も多いのではないでしょうか。P値を用いて科学的に有意に異なるという結論が出たとしても、真実とは違うかもしれないのです。更に言えば、P<0.05の有意差を出すために様々な解析方法を用いて、一番都合のいい結果を選択的に報告するなど、真実を追求するのとは逆行するようなことすら、当たり前のように行われています。

ここで問題となってくるのが科学論文の再現性です。科学界では、あるグループが出した科学的な結論を、全く関係ないグループが同じ方法で検証して同様の結果が得られることで科学的な信憑性が認められます。しかしながら、近年は権威ある科学雑誌に掲載された論文ですら再現性がないことが問題視されています。何故このようなことが起こるのでしょうか。一つには、私が以前から述べているように、科学界での競争の激化による行き過ぎた成果主義によって、迅速な結果を求める結果、先程述べたように解析方法を曲げてでも、再現性が低いが見た目のいい結果を出し、権威ある、あるいはインパクトファクターの高い科学雑誌に発表することをよしとする風潮が生まれていることが考えられます。

このような「不当な」科学論文(このケースは図を完全に置き換えたり、不利なデータを消したりするような巷で言われる研究不正とは違う話ですので不当という言葉を使います)が世の中に溢れかえってしまうことは、みなさんが考えている以上の巨悪であると私は考えています。再現性がないという面ではこういう不当な論文は、あきらかな研究不正と同じ影響をもたらします。見た目には不正がないので、余計にたちが悪いです。不正・不当な論文は質の高いエビデンスを提示する論文の登場の機会を奪い、優秀な研究者の活躍の場を奪います。また、間違った科学的結論を世の中に広めて害をもたらします。不当な結論に基づいて皆さんの健康を害する商品が、健康に良いとして世の中に出回り、寿命を縮めていることを考えてみてください。科学の原資は税金ですから、税金を使って世の中を改悪しているようなものです。

それでは、どういう統計手法を用いたら、科学論文の再現性を高めることができるのでしょうか。少し長くなってしまったので続きは次回に書きたいと思います。

次回に続く)

コメントを残す