Header Image


Prism機能紹介
分割表分析 - 分割表(クロス集計表)からのP値
無料トライアル版を試す

分割表分析 - 分割表(クロス集計表)からのP値

分割表(クロス集計表)は2つ、またはそれ以上のグループを比較し、その結果をカテゴリ変数(病気/健康、合格/失格、動脈正常/閉塞、等)としてまとめたものです。

基本概念:分割表テーブル

分割表(クロス集計表)は、次の5種類の研究の結果を表すのに使用されます:

  • 横断面型(cross-sectional) 調査においては一つのグループからなる対象を抽出、それらを2つの基準によって行と列に分類するものです。
  • 前向き(prospective)調査は潜在的なリスク要因からスタートし、それぞれの対象群がどうなるかを時間的に前方向に調査するものです。
  • 後向き(retrospective)患者-コントロール(case-control)調査ではある症状からスタートし、その原因について時間的に後向きに調査します。
  • 実験においては変数を操作することができます。まず一つの群の対象からスタートします。半分にはある治療を施し、残りの半分には別の治療を施すか何もしないでおきます。これによって2つの行が定義されます。アウトカムは列に分類されます。
  • 分割表診断テスト(diagnostic test)の正確さを評価するのにも使われます。

ロジスティック回帰

分割表(クロス集計表)はアウトカムがカテゴリカル、かつ一つの独立(グルーピング)変数もカテゴリカルな場合に使用されます。実験デザインがより複雑になる場合、 Prismで利用可能な、ロジスティック回帰を使用する必要があります。

ロジスティック回帰は、アウトカムが分類別であるとき、具体的にはアウトカムがバイナリ(Yes/No、生存/死亡、合格/不合格など)であるとき使用されます。ある場合には、このアウトカムについての予測子として、1つの独立変数(X変数)しかないかもしれません。この場合には、単純ロジスティック回帰 を使用することができます。更に、カテゴリ変数または数値変数である複数の独立変数がある場合は、多重ロジスティック回帰 を使用できます。上の例で言えば、白血病の症例を電磁場での被ばくの有無で比較する際、性別や年齢、白血病の家系か否かにも配慮するようなケースが該当します。分割表をこの種の分析のために使用することはできませんが、ロジスティック回帰を使用することができます。

Statistics Guide: Key concepts. Contingency tables

結果の解釈:分割表からのP値

P値が答えるもの

 Fisher(フィッシャー)の検定、あるいはカイ2乗検定から得られるP値は次の問いに答えます:

行を規定する変数と列を規定する変数との間に関連がないとした場合、観測された程度の、あるいはそれ以上の関連がランダムサンプリングによってもたらされる確率はどの程度か。

列数が2で、自然な順序に配列された行数が3以上の場合、傾向のカイ2乗検定(chi-square test for trend)が使用されます。それは、コクラン・アーミテージ(Cochran-Armitage)傾向検定とも呼ばれていて、P値はこの質問に答えます:

行番号と左側カラム中の比の値に線形傾向がないとした場合、ランダムサンプリングの結果として観測された程度の強い線形傾向が得られる確率はどの程度か。

「統計的に有意」ということと「科学的に重要」ということとは同一ではない ということを忘れないでください。P値が 小さい か 大きい かによって解釈は異なってきます。

NOTE

GraphPad Prismでは2×2分割表ではフィッシャーの正確確率検定が可能ですが、これより大きい分割表では自動的にカイの二乗検定が選択されます。これを変更することは出来ません。これは基本的にフィッシャーの正確確率検定が2×2分割表だけを対象した検定手法で有る為です。補正/修正を行うことで、フィッシャーの正確確率検定により2×2分割表よりも大きい分割表を扱えるようにしているソフトウェアもあるようですが、GraphPad Software社ではフィッシャーの正確確率検定に補正/修正を行うことは適切ではないと判断しているためこのような仕様になっています。

なぜ、P値は信頼区間と必ずしも整合性が取れないのでしょう。

P値と信頼区間とは相互に絡み合っています。もしP値が0.05より小さい場合、95% CIは帰無仮説を規定する値を含むはずはありません。(P<0.01と99% CI、等についても同様のルールが成立します。) このルールは分割表からのPrismの結果について言うと常に成り立つわけではありません。

フィッシャーの検定から得られるP値は厳密に正確です。しかしオッズ比や相対危険度に対する信頼区間は近似的に正しいというだけの手法によって算出されます。このため信頼区間がP値と完全には一致しないということが起り得ます。例えばP<0.05でありながら相対危険度の95% CIに1.0の値が含まれることがあります(相対危険度が1.0ということはリスクがないことを意味し、帰無仮説に対応したものとなります)。同様にP>0.05でありながら95% CIに1.0の値が含まれないこともあります。これらの矛盾が生じるのは稀ですが、入力された値の一つがゼロの場合に良く起ります。

PrismによるP値の計算方法

カイ2乗検定の計算法は標準的なもので、すべての統計学の参考書に説明があります。

Fisherの検定は“正確”検定と呼ばれているのでP値の算出法にはコンセンサスが確立されていると思われるでしょう。そうではありません。片側P値の計算法については誰もが合意するところですが、“正確”な両側P値の計算法については3種類の方法があります。Prismは小さなP値を足し合わせる方法で両側P値の値を計算します。多くの統計学者がこのアプローチを推奨しているように思われますが、プログラムによっては別のアプローチを取っているものもあります。

片側 P 値

Prismでは、片側P値あるいは両側P値 で出力するか選択できます。

カイ二乗検定では、片側P値は、両側P値の半分の値となります。実験デザインが、行合計と列合計を選択するようなものである場合、Zarは "Biostatistical Analysis (5th Edition) "で、「片側P値が1つの極めてまれな状態があると誤解をまねくことがある」(pg.503)と指摘しています。

なぜ”one-tailed”ではなく、”one-sided”という用語を使用するのでしょう。混乱を避けるためです。カイ二乗の値は、常に正です。カイ二乗からP値を見つけるために、Prismは帰無仮説の下で確率を計算します ― カイ二乗の値がとても大きいのを見る、または、より大きく互角になります。つまり、カイ二乗分布の右のすそだけを見ます。しかし、帰無仮説から偏りがどちらの方向に動いても(比率間の差異が正あるいは負でも、相対危険度が1よりお起きても小さくても)、カイ二乗値は高い事があり得ます。そのため、両側P値は、カイ二乗分布の1つのすそから、実際に計算されます。  

フィッシャーの検定では、片側P値の定義は不明瞭ではありません。しかしほとんどのケースで、片側のP値は両側P値の半分ではありません。

Statistics Guide: Interpreting results: P values from contingency tables


結果の解釈:相対危険度

相対危険度

ここに実験の研究からの結果があります:

 

進行あり

進行なし

AZT

76

399

Placebo

129

332

この例の場合、プラセボを投与した患者の28%で進行が見られますが、AZTを投与した場合は16%に留まっています。

相対危険度は16%/28% = 0.57で与えられます。AZTで治療した対象は、病気が進行する確率がプラセボで治療した対象に比べ57%であることになります。“危険度”という言葉は常に適切とは限りません。相対危険度は単に比率間の比を意味するものと考えてください。

相対危険度の信頼区間の計算方法

Prismで相対危険度を求めるには、分析パラメータを設定します。

Parameterダイアログ から Main Calculationsタブをクリックします。Main Calculations タブの Effect sizes to report 項目にある Relative Risk にチェックを入れ、詳細を Optionsタブで設定します。

PrismはKatzの手法あるいはKoopman asymptotic scoreを使用して相対危険度の信頼区間を計算します。

Prism6以前のバージョンではKatzの手法が唯一の方法でしたが、Prism7以降のバージョンでは、より正確なKoopman asymptotic scoreを推奨しています。

Katzの手法を選択し値の幾つかがゼロの場合、Prismは相対危険度とその信頼区間の計算の前に全てのセルの値に0.5を加えます。この計算が行われるとき、Prismは結果ページ上でフローティングメモが表示されます。この場合、Koopmanの手法に変更することが提案されます。

2つの列の順序の問題、行ではあまり問題にならない

どのようにデータを入力するかが、重要であることに注意してください。上の例で”進行”データを2番目の列に入れ、”進行なし”のデータを最初の列入力していたら、相対危険度は異なったでしょう。個々の行について、2番目の列の値の合計で最初の列の値を割ることで、Prismは危険度を計算します。

2つの危険度を計算した後(前節を参照)に、2番目の行での危険度を最初の行での危険度で割ることで、Prismは相対危険度を計算しますが、その危険度の逆数も同様に出力されます。2つの列の順序の問題、行ではあまり問題になりません。

Statistics Guide:Interpreting results: Relative risk