統計学は科学・経済・社会を統べる!3
前回の記事で、多くの論文の科学的根拠となっているP値が完璧ではないということを書きました。
これは非常に重大な問題であるのにも関わらず、あまり表立って議論されていないように見受けられます。また、前回も書いたように、多くの再現性のない論文が生産される一つの要因にすらなってしまっています。この問題はいわゆるトップジャーナルに掲載されるような超一流の論文にも当てはまります。もちろん、すべての論文に再現性がないわけではありません。
当たり前のことですが、科学の目的は、自然界の謎を解き明かして人類のよりよい生活に貢献することです。私の専門分野の生物医学分野、公衆衛生学分野でいえば、病気の予防と治癒に貢献することです。一見華やかで素晴らしい研究成果のようで実際は真実と異なる結論が科学的に正しいものとして発表されることが日常化している現状は、科学にとってその根幹をゆるがす異常な状態だと認識されるべきです。真実ではない研究成果はいずれ何らかの形で矛盾が発覚して否定されることにはなるのですが、それを証明するまでに他の研究者がかける労力と時間が無駄になります。
それでは、我々はどのような方法を用いれば、科学的な再現性を高めてより質の高いエビデンスを提供できるようになるのでしょうか。これについては今後も科学界で積極的な議論が必要ですが、私が現時点で最善であると考えるのは、新しい発見、仮説の検証については、P<0.05ではなく、P<0.005を科学的有意差の基準とすることです。これももちろん絶対的な解決策ではありませんが、現状を容易に改善するのに有効なはずです。なぜこの基準を取り入れるべきと考えるのかについて、理由を説明するために前回取り上げた例をあげます。
前回、上記の図で、研究をする以前に集団U(図②)(男女差がある)の仮説が真実である事前確率が極めて低く、1%しかない場合を考えました。逆に言えば集団T(図①)(男女差がない)の仮説が真実という事前確率は99%です。
この場合、P値が0.05であっても集団T(図①)(男女差がない)の仮説が真実である確率は約94%という結果が出てきます(Benjamin et al. Nat Hum Behav 2018のデータとベイズ理論に基づく)。すなわち、集団U(図②)(男女差がある)の仮説が真実である確率は1%から6%にしか上がりません。
それでは、同様のケースでP値が0.005である場合はどうでしょう。この場合、同じデータとベイズ理論を用いると、集団T(図①)(男女差がない)の仮説が真実である確率は約60%という結果が出てきます。すなわち、集団U(図②)(男女差がある)の仮説が真実である確率は1%から約40%に上がります。もちろん、これでも男女差があるという結論にはならず、もっと研究が必要であることは言うまでもありませんが、P値が0.05であるときと比べてかなり改善されることがわかります。
この例から分かるように、有意差の基準を一桁変えることで、多くの論文の科学的な信憑性が上がるはずです。また、もし間違った解析方法を取り入れてP値を算出していたとしても、P値の基準を厳しくすることで、間違った結論が導き出されることをある程度は防ぐことができます。統計学をあまり理解していない人がP値を用いている現状を考えるに、これが現状では容易に実現可能で、しかも効果的な解決方法であると私は考えています。
この提案は2018年のNature Human Behaviour誌にベンジャミン博士など70人以上の統計学の専門家グループによって発表されました。私は以前から従来使われているP<0.05に基づく統計的推論に疑問を抱いてきたため、この考えに強く賛同し、2018年以来、我々の研究室から出る論文にはP<0.005の基準を採用しています。
P値を実際に使ったことがある方々はこの基準についてどういう考えを持たれるでしょうか。率直に言って厳しすぎると思われる方も多いと思います。また、広く採用に至るまでには多くの反発を招くことは容易に予想できますが、科学をより良くするためにより厳正な基準を設けることは良いことだというふうに考えてほしいと思います。
私は真にこの取組が広がってくれることを願っていますし、私もそのために尽力していこうと思っています。
(次回に続く)