分割表分析 - 分割表(クロス集計表)からのP値
分割表(クロス集計表)は2つ、またはそれ以上のグループを比較し、その結果をカテゴリ変数(病気/健康、合格/失格、動脈正常/閉塞、等)としてまとめたものです。
基本概念:分割表テーブル
分割表(クロス集計表)は、次の5種類の研究の結果を表すのに使用されます:
- 横断面型(cross-sectional) 調査においては一つのグループからなる対象を抽出、それらを2つの基準によって行と列に分類するものです。
- 前向き(prospective)調査は潜在的なリスク要因からスタートし、それぞれの対象群がどうなるかを時間的に前方向に調査するものです。
- 後向き(retrospective)患者-コントロール(case-control)調査ではある症状からスタートし、その原因について時間的に後向きに調査します。
- 実験においては変数を操作することができます。まず一つの群の対象からスタートします。半分にはある治療を施し、残りの半分には別の治療を施すか何もしないでおきます。これによって2つの行が定義されます。アウトカムは列に分類されます。
- 分割表は診断テスト(diagnostic test)の正確さを評価するのにも使われます。
ロジスティック回帰
分割表(クロス集計表)はアウトカムがカテゴリカル、かつ一つの独立(グルーピング)変数もカテゴリカルな場合に使用されます。実験デザインがより複雑になる場合、 Prismで利用可能な、ロジスティック回帰を使用する必要があります。
ロジスティック回帰は、アウトカムが分類別であるとき、具体的にはアウトカムがバイナリ(Yes/No、生存/死亡、合格/不合格など)であるとき使用されます。ある場合には、このアウトカムについての予測子として、1つの独立変数(X変数)しかないかもしれません。この場合には、単純ロジスティック回帰 を使用することができます。更に、カテゴリ変数または数値変数である複数の独立変数がある場合は、多重ロジスティック回帰 を使用できます。上の例で言えば、白血病の症例を電磁場での被ばくの有無で比較する際、性別や年齢、白血病の家系か否かにも配慮するようなケースが該当します。分割表をこの種の分析のために使用することはできませんが、ロジスティック回帰を使用することができます。
Statistics Guide: Key concepts. Contingency tables
結果の解釈:分割表からのP値
P値が答えるもの
Fisher(フィッシャー)の検定、あるいはカイ2乗検定から得られるP値は次の問いに答えます:
行を規定する変数と列を規定する変数との間に関連がないとした場合、観測された程度の、あるいはそれ以上の関連がランダムサンプリングによってもたらされる確率はどの程度か。
列数が2で、自然な順序に配列された行数が3以上の場合、傾向のカイ2乗検定(chi-square test for trend)が使用されます。それは、コクラン・アーミテージ(Cochran-Armitage)傾向検定とも呼ばれていて、P値はこの質問に答えます:
行番号と左側カラム中の比の値に線形傾向がないとした場合、ランダムサンプリングの結果として観測された程度の強い線形傾向が得られる確率はどの程度か。
「統計的に有意」ということと「科学的に重要」ということとは同一ではない ということを忘れないでください。P値が「小さい」か「大きい」かによって解釈は異なってきます。
NOTE
GraphPad Prismでは、2×2 分割表ではフィッシャーの正確確率検定が可能ですが、これより大きい分割表では自動的にカイの二乗検定が選択され、検定方法を変更することは出来ません。これは基本的にフィッシャーの正確確率検定が 2×2 分割表だけを対象した検定手法で有る為です。補正/修正を行うことで、フィッシャーの正確確率検定により2×2 分割表よりも大きい分割表を扱えるようにしているソフトウェアもあるようですが、GraphPad Software社ではフィッシャーの正確確率検定に補正/修正を行うことは適切ではないと判断しているためこのような仕様になっています。
なぜ、P値は信頼区間と必ずしも整合性が取れないのでしょう。
P値と信頼区間とは相互に絡み合っています。もしP値が0.05より小さい場合、95% CIは帰無仮説を規定する値を含むはずはありません。(P<0.01と99% CI、等についても同様のルールが成立します。) このルールは分割表からのPrismの結果について言うと常に成り立つわけではありません。
フィッシャーの検定から得られるP値は厳密に正確です。しかしオッズ比や相対危険度に対する信頼区間は近似的に正しいというだけの手法によって算出されます。このため信頼区間がP値と完全には一致しないということが起り得ます。例えばP<0.05でありながら相対危険度の95% CIに1.0の値が含まれることがあります(相対危険度が1.0ということはリスクがないことを意味し、帰無仮説に対応したものとなります)。同様にP>0.05でありながら95% CIに1.0の値が含まれないこともあります。これらの矛盾が生じるのは稀ですが、入力された値の一つがゼロの場合に良く起ります。
PrismによるP値の計算方法
カイ2乗検定の計算法は標準的なもので、すべての統計学の参考書に説明があります。
Fisherの検定は“正確” 検定と呼ばれているので、P値の算出法にはコンセンサスが確立されていると思われるかもしれませんが、そうとは限りません。片側P値の計算法については誰もが合意するところですが、“正確” な両側P値の計算法については3種類の方法があります。Prismは小さなP値を足し合わせる方法で両側P値の値を計算します。多くの統計学者がこのアプローチを推奨しているように思われますが、プログラムによっては別のアプローチを取っているものもあります。
片側 P 値
Prismでは、片側P値または両側P値で出力するか選択することができます。
Zarは、片側P値が誤解を招くような極めてまれな状況が1つあると指摘しています。 "Biostatistical Analysis (p.503、第5版)の中で、実験計画が行合計と列合計の両方を選んだような場合、片側P値がミスリードされると述べています。
カイ二乗の値は常に正になります。カイ二乗からP値を見つけるために、Prism はカイ二乗の値が大きいかそれ以上になる確率を (帰無仮説の下で) 計算します。したがって、カイ二乗分布の右裾のみを調べますが、帰無仮説からの偏差がいずれかの方向にある場合 (比率間の正または負の差、相対リスクが 1 より大きいかまたは小さい場合)、カイ二乗値は高くなる可能性があります。そのため、両側P値は実際にはカイ二乗分布の 1つの裾から計算されます。
フィッシャーの検定では、片側P値の定義は不明瞭ではありません。しかしほとんどのケースで、片側のP値は両側P値の半分ではありません。
Statistics Guide: Interpreting results: P values from contingency tables
結果の解釈:相対危険度
相対危険度
ここに実験の研究からの結果があります:
|
進行あり |
進行なし |
AZT |
76 |
399 |
Placebo |
129 |
332 |
この例の場合、プラセボを投与した患者の28%で進行が見られますが、AZTを投与した場合は16%に留まっています。
相対危険度は16%/28% = 0.57で与えられます。AZTで治療した対象は、病気が進行する確率がプラセボで治療した対象に比べ57%であることになります。“危険度”という言葉は常に適切とは限りません。相対危険度は単に比率間の比を意味するものと考えてください。
相対危険度の信頼区間の計算方法
Prismで相対危険度を求めるには、分析パラメータを設定します。
Parameterダイアログ から Main Calculationsタブをクリックします。Main Calculations タブの Effect sizes to report 項目にある Relative Risk にチェックを入れ、詳細を Optionsタブで設定します。
PrismはKatzの手法あるいはKoopman asymptotic scoreを使用して相対危険度の信頼区間を計算します。
Prism6以前のバージョンではKatzの手法が唯一の方法でしたが、Prism7以降のバージョンでは、より正確なKoopman asymptotic scoreを推奨しています。
Katzの手法を選択し値の幾つかがゼロの場合、Prismは相対危険度とその信頼区間の計算の前に全てのセルの値に0.5を加えます。この計算が行われるとき、Prismは結果ページ上でフローティングメモが表示されます。この場合、Koopmanの手法に変更することが提案されます。
2つの列の順序の問題、行ではあまり問題にならない
どのようにデータを入力するかが、重要であることに注意してください。上の例で”進行”データを2番目の列に入れ、”進行なし”のデータを最初の列入力していたら、相対危険度は異なったでしょう。個々の行について、2番目の列の値の合計で最初の列の値を割ることで、Prismは危険度を計算します。
2つの危険度を計算した後(前節を参照)に、2番目の行での危険度を最初の行での危険度で割ることで、Prismは相対危険度を計算しますが、その危険度の逆数も同様に出力されます。2つの列の順序の問題、行ではあまり問題になりません。
Statistics Guide:Interpreting results: Relative risk