統計学は科学・経済・社会を統べる!4
前回の記事から少し時間が経ってしまいましたが、これまでに、科学的なエビデンスやその根拠となる統計学の重要性が社会で軽視されがちであること(こちらの記事)、一方で科学的根拠の基準として用いられているP値が本来の意味を逸脱した形で濫用されており、その結果多くの科学論文において再現性がなくなったり低くなってしまっていること(こちらの記事)、そして科学論文の信頼性を上げるために、新しい発見や仮説の検証についてはP<0.05ではなく、P<0.005を科学的有意差の基準とする提案(こちらの記事)について書いてきました。
世の中の科学論文には、質が高く信用できる結果だけでなく、実は科学的には信頼性に乏しく再現性のない結果も驚くほど多くあるということを一般の方にも知っていただきたいです。別の記事で述べた、俗に言うハゲタカジャーナルに掲載されるような、査読(他の研究者によるチェック)のない論文のみならず、いわゆるインパクトファクターの高い一流誌に掲載されるような論文ですら、再現性が低いということもありえます。以前から述べているような科学界の競争激化(こちらの記事)でとにかく目に見える結果を出すという傾向が関わっているということは言うまでもありません。
このことを前提とした上で、今回はいわゆるメタ解析の論文について考えてみたいと思います。メタ解析とは多数の論文の結果を総合的に解析することです。メタ解析は、統計学の基本的な知識があれば、自分で手を動かして実験やコホートの運営をすることなくその分野の論文を集めてデータを解析するだけで成果を出せることから、近年とみに増えています。そして、「多数の論文を分析」した結果なので、1つ1つの論文の結果よりも科学的信憑性があるように思われているがために、引用回数も平均的に多くなりがちです。実際に、メタ解析の論文の結果を用いて、科学的に正しいかのような喧伝がされていることもあります。
果たして本当でしょうか?先ほど述べたように、世の中に出回っている論文のうち、驚くほど多くが科学的な信憑性に乏しいのです。これを集めて解析したらどうなるでしょう?データ解析分野の言葉に、garbage in garbage out (GIGO)と言う言葉があります。言葉は悪いですが、ゴミばかり入れてもゴミしか出てこない!と言うことです。
より具体的に説明するために、以下の図を見てください(出典Voorham et al. Am J Gastro 2013 )。病理学研修医向けの統計学の講義で私が用いているスライドから引用しました。専門的な内容なので、細かい内容は省いて直感的に説明します。以下の左の図はKRASという癌遺伝子の変異の有無と大腸新生物の形状との関係を調べた論文を並べたものです。右図は、左図にある全部の論文を1つずつ赤い点にしてプロットしたものです。右図の縦軸は統計的検出力を表しており、簡単に説明すると、上に行くほどより大きい集団を解析した信頼性の高い論文が多く、下に行くほど小さい集団を解析した信頼性の低い論文が多いということです。横軸(オッズ比のログ・スケール)は右にいけば正の関係が強く、左にいけば負の関係が強いということです。グラフの中にある傘のような3つの線はとりあえず無視してください。
この図を見て、何か気がつかれることはないでしょうか。本来ならば、論文ごとに結果にばらつきがあるのは当然ながら、大規模集団研究の論文も、小規模集団研究の論文も似たような横軸平均値を見せるはずです。ところが一番上の方にある7論文の結果の横軸平均値は0に近い(オッズ比1に相当する、つまり正/負いずれの関係もない)のにそのすぐ下の中規模集団の論文は、かなり左にずれて−1.5近くが平均でしょう。更に一番底辺の小規模集団を使った約10論文では、それよりもさらに左にずれて−3近く(負の関係)が平均です。こうすると大規模集団研究の論文を集めたメタ解析と小規模集団研究の論文を集めたメタ解析とでは、全く違う結論が出てくることが、お分かりになるでしょう。結論が異なる理由として、小規模集団を分析した論文群においてバイアスの存在が推定されます。
一つは出版バイアスというもので、統計的に有意差のある解析結果を載せた論文のほうがより発表されやすいという傾向のことです。出版バイアスは小規模集団の論文において特に顕著となります。なぜなら、大規模集団研究ではたとえ統計的有意差のある結果がでなくても研究デザインが優れている場合が多く、デザイン自体への評価に基づいてどのような結果であっても論文発表等が可能になることが多いからです。
もう一つは解析そのもののバイアスです。つまり、解析を始める前に期待される結果のほうにバイアスがかかりがちということです。
なぜでしょうか。P値の記事でも述べましたが、様々な統計処理・前処理を試行錯誤することによって、得られる結果をよりよく見せることが可能だからです。そして、より小規模集団を用いた解析ではそうした試行錯誤が結果に与える影響がより大きいのです。一例をあげると、外れ値のある数症例を含めるか除くか、それによって小規模集団の解析ではかなり違う結果になるかもしれません。一方で大規模集団では、母集団が大きいために数症例の全体に与える影響は限定的となり、そうした試行錯誤による影響はより小さく、科学的に再現性のある結論を導きやすいということが考えられます。
このことから、科学的に信頼性の高い観察研究結果を得るには、大規模集団の解析でないと信頼性が低いということになりますし、小規模集団に小出しに資金を拠出することで、科学の発展に寄与するどころか再現性のない結果を提供しかねない研究を増やすよりも、数十年先の科学の発展を見越して、科学的に優良なデザインの大規模集団研究への資金に多額を拠出しても結果的にコストパフォーマンスに優れているということです。これについては、以前の記事で述べているので詳しくはそちらを参照してもらうことにして、実現には国家レベルの戦略と資金を要します。
さて、話を今回の記事のテーマであるメタ解析に戻します。今までの説明を踏まえて、誰かが機械的に上記の図の論文をすべて含めて解析して導き出される結果はどうなるでしょうか。当然ながらバイアスのかかった結果と結論が出ます。世の中に大量に出回っているメタ解析論文のうち、どれくらいが一つ一つの論文の内容の質まで考慮してバイアスのより少ない論文を選定した解析を行っているでしょうか。私の実感からはかなり少ないと思います。多くの場合、統計解析を少し学んだ研究者が、論文を検索し集めて、深く考えずに解析し出版しているというのが実情のように思います。もちろん、中には素晴らしいメタ解析の論文もあるということも付け加えます。
(次に続く)