P値について【GraphPad Prism7統計ガイドより】

P値の意味

今、異なる薬品を投与した2つの動物サンプルからデータを収集したとします。個々の動物の血漿中の酵素を計測した結果、平均値は異なっていました。それが投与した薬品によるものかどうか、すなわち2つの集団は異なる平均値を持っているのかどうかが問題になります。

 

異なるサンプル平均が観測されたというだけでは、2つの集団の平均値が異なっていたと結論付ける上での説得力に欠けます。2つの集団は同じ平均値を有していた(すなわち薬品は測定対象の酵素に何の影響も与えなかった)が、観測されたサンプル平均の違いはたまたまの偶然で起こったということもあり得ます。観測された違いが真の違いによるものか、単なるサンプリングの過程で生じた偶然か、確認する手立てはありません。やれることと言えば確率を計算することだけです。

 

最初のステップは帰無仮説、すなわち薬品は計測に何の影響も与えなかったという仮説を立てることです。P 値とはこの恐らくは考えたこともない質問に答える確率のことを言います。

このサイズの実験において、仮に母集団が同一の平均値を有していたとして、少なくとも観測された程度のサンプル平均の差を生ずる確率はどれだけか?

P値に対する誤解

多くの人はP 値の意味を誤解しています。今、2つの平均値を比較し、0.03 というP 値を得たとしましょう。
P 値の正しい定義は次のとおりです。
2つの集団の平均が同一であったとしても(帰無仮説が真だとしても)、観測された程度の差を生じる確率は3%ほどある。
または
同一の集団からランダムなサンプリングを行った場合、97%の実験では観測されたものより小さい差を生ずるであろうし、3%の実験においては観測されたものより大きな差が生じるであろう。

誤った解釈

観測された差が集団間の真の違いを反映している確率は97%であり、差が偶然によるものである確率は3%である。
この最後のステートメントは良く見られる誤りです。正しい定義との違いが鮮明でないという場合には Bayesian perspective をお読みください。

片側 P値、両側 P値

2つのグループを比較する場合、片側P 値(one-tail/one-sided P values)と両側P 値(twotail/two-sided P values)の違いに注意する必要があります。片側P 値にしろ両側P 値にしろ同一の帰無仮説 - 2つの集団には差がなく、サンプル平均で観測された差は偶然によるものである - に基づいています。
Note: この例は2つのグループの平均値を比較する対応のないt 検定(unpaired t test)に対するものです。同様の考え方は他の統計検定にも適用できます。

両側P 値

両側P 値は次の設問に答えるものです。
帰無仮説が真であるとして、ランダムに選択されたサンプルが観測されただけ(あるいはそれ以上の)開きのある平均値を持つ確率はどの程度か。

片側P 値

片側P 値を解釈するためには、データ収集に先立ちどちらのグループが大きな平均値を持つかが言えなくてはなりません。片側P 値は次の設問に答えるものです。帰無仮説が真であるとして、ランダムに選択されたサンプルのうち指定された側が観測されただけ(あるいはそれ以上の)開きのある平均値を持つ確率はどの程度か。
過去のデータなり物理的制約なり、あるいは常識なりによって、差がどちらの方向に生じるかが言える場合にのみ片側P 値は有効です。ここで問題となるのは差の存在を期待できるかどうかではありません。増加なり減少なりを同じように解釈できるかどうかです。
片側P 値は次の2つの条件が共に成立する場合のみ選択してください。

  • どちらのグループが大きい平均値なり比率なりを持つかがデータ収集以前に予測できること
  • 仮に想定外の方がより大きな平均値を持った場合でも、それは偶然によってもたらされたものであり、その差は “統計的には有為でない “と言えること

両側P値を使用する

確信が持てないときは両側P 値を選択すべきです。理由は次のとおりです。

両側P 値の方がP 値と信頼区間の関係を理解しやすい。検定によっては3つ以上のグループを比較することがあります。その場合、 “tail “の考え方が適当ではなくなります。両側P 値の場合、これらの検定で報告されるP 値との矛盾は小さいと言えます。

片側P 値を選択した場合、ジレンマが生じる場合があります。平均値に大きな差が生じたとしても、大きな平均を持つグループが反対のグループだったらどう対処しますか。厳密に言うなら、その差は偶然によるものと言わなくてはなりません。急に両側P 値に切替えたり、仮説の向きを反転したりするのはフェアとは言えません。両側P 値であればこのような問題は生じません。

小さなP値の解釈法

P 値の解釈に先立ち

P 値について考える前に、科学技法を評価してみましょう。研究が良く練られていないと思うような結果が得られません。P 値が何か以前の問題です。また、分析のために設けた仮定が妥当なものかレビューしておく必要があります。Prism が行う分析に対してはチェックリストが提供されています。何らかの仮定に違反していた場合、P 値は意味をなさなくなるでしょう。

小さなP 値の解釈

小さなP 値の意味するところは観測された差(相関、連関、...)がランダムサンプリングの結果として稀には起るということです。可能性としては3つが考えられます。

  • 差がないという帰無仮説が真で稀な偶然が生じた。たまたま一つのグループに対しては大きな値が集中し、他方のグループには小さな値が集中したもので、観測された差分は偶然によるものである。これはどの程度起り得るでしょうか。答えは驚くことにP 値ではないのです。答えは実験の科学的背景に依存します。
  • 帰無仮説が真でない。科学的に意味を持つほど実際に差(あるいは相関、連関、...)が存在するケースです。
  • 帰無仮説が真でない。実際に差(あるいは相関、連関、...)は存在するがその差は小さく、科学的な意味が認められないケースです。

 

最後の2つのケースの判定は科学的判断に委ねられるべきものであって、統計計算が役に立つ側面はありません。

信頼区間を用いてP 値を解釈する

P 値が0.05 より小さい場合、95%の信頼区間には0 という値は含まれないでしょう(2つの平均値を比較しているものとします)。信頼区間を科学的に解釈するためにはその両端に着目し、それらが科学的に意味のある差を表しているのか否かを自問してみてください。本セクションでは2つの平均値をt 検定で比較しているものと想定していますが、同様の考え方を他のコンテクストのもとで適用するのも容易に行えます。

 

次の3 ケースについて考えてみる必要があります。

  • 信頼区間に含まれるのは無視できるような差のみである。この場合、真の差分は存在し0 ではないという点に95%の確信が持てるかも知れませんが、同時に平均値の真の差分は小さく、意味のないものであるという点も95%確実なのではないでしょうか。治療の効果はあったものの小さかったということです。
  • 信頼区間に含まれる差分はすべて有意と考えられるものである。この場合、信頼区間の下限値であっても意味のある差を表していることになります。従って平均値の差は実際に存在し、科学的に有意な大きさであると結論付けることができます。
  • 信頼区間の一方は無意味であるが、他方は有意である。この場合、明解な結論を導くことは容易ではありません。真の差分が存在することに95%の確信は持てたにせよ、その大きさが意味のあるほど大きいものかどうか判定できない状況にあります。

大きなP値の解釈法

P 値の解釈

P 値について考える前に -

科学技法を評価してみましょう。研究が良く練られていないと思うような結果が得られません。P 値が何か以前の問題です。

分析のために設けた仮定が妥当なものかレビューしておく必要があります。Prism が行う分析に対してはチェックリストが提供されています。何らかの仮定に違反していた場合、P 値は意味をなさなくなるでしょう。

大きなP 値の解釈

P 値が大きい場合には、真の平均が異なるという結論を導くための根拠はデータからは得られません。真の平均にたとえ差がなくとも、観測されただけの差が偶然によって生ずることは十分にあり得るからです。だからと言って真の平均が等しいと言えるわけでもありません。単にそれらが異なることを示す十分な根拠が得られていないだけなのです。

信頼区間を用いてP 値を解釈する

真の差分はどれほどでしょうか。ランダムな変動があるため、観測されたグループ間の平均値の違いが母集団の真の差分に等しいということはまずないでしょう。真の差分を知る術はないのです。不確実さの度合いは95%信頼区間によって表されます。この信頼区間の中に真の差分値が存在する確度は95%と言うことができます。P 値が0.05 より大きな値の場合、95%信頼区間は負の値(減少を意味する)から正の値(増加を意味する)に及ぶことになります。


結果を科学的に解釈するためには信頼区間の両端に着目し、それらが科学的に意味のある差を表しているのか否かを自問してみてください。次の2 ケースについて考えてみる必要があります。

 

信頼区間が意味をなさない程度の減少から意味をなさない程度の増加に及んでいる。この場合の結論は明確です。治療が効果を持たなかったか、持ったにしても意味をなさない程度に小さかったということです。実験にはそれなりに意味があります。

信頼区間の一方、もしくは双方が有意と考えられる変分を含んでいる。この場合、明解な結論を導くことはできません。95%の確度で言えることは差がなかったか、あったにしても意味をなさない程度に小さかった、あるいは有意な程度に大きかったということです。要は観測されたデータからは明解な結論は何ら導けないということです。

Copyright 2016 MDF Co., Ltd. All rights reserved.

▲ PAGE TOP