箱の枠線、線、ひげによって表される値の内容
箱
箱の範囲は常に 25 番目のパーセンタイルから 75 番目のパーセンタイルまでです。この上下限値はプロットのヒンジと呼ばれることもあります。意外にも、これらのパーセンタイル値を算出するのに複数の方法があります。Prism では標準の方法が使用されますが、これは Excel で使用されている方法とは異なります。
箱の中央線は中央値でプロットされます。別の値を選択することはできませんが、中央値に "+" を付けることは可能です。
ひげの位置
Prism では箱ひげ図のひげを 6 つの方法で作成できます。
| • | 「最小から最大」[Min to max.]: ひげは最小値および最大値まで引かれます。 |
| • | 「Tukey」[Tukey]: 以下の詳細を参照してください。 |
| • | 「10-90パーセンタイル」[10 to 90 percentiles]: ひげが 10 番目のパーセンタイルまで、および 90 番目のパーセンタイルまで引かれます。ひげを下回る、または上回るポイントは個別のドットでプロットされます。 |
| • | 「5-95パーセンタイル」[5 and 95 percentiles] |
| • | 「2.5-97.5パーセンタイル」[2.5 and 97.5 percentiles] |
| • | 「1-99パーセンタイル」[1 and 99 percentiles] |
| • | 「最小から最大まですべての点を表示」[Min to max, show all points.]: この方法では、ひげが最小値および最大値まで引かれますが、各値もドットでグラフ上に重ねてプロットされます。 |
ひげと外れ値をプロットするためのTukeyの手法の詳細:
| 1. | 四分位間の距離(25と75パーセンタイル値間の差)を計算します。 これをIQRと呼びます。 |
| 2. | 75パーセンタイル値 + 1.5 x IQRを加えます。この値がデータセットの最大値より大きいか同じである時、最大値の上側のひげを描きます。逆に、75パーセンタイル値 + 1.5 x IQRの値よりも小さいとき、ひげは最大値までしか描画されず、この値より大きい値は個々に点としてプロットされます。 |
| 3. | 25パーセンタイル値 - 1.5IQR を計算します。この値がデータセットでの最小値よりも小さいとき、最小値について下側のひげを描画します。逆に、25パーセンタイル値 - 1.5IQRの値よりも大きいとき、ひげは最小値までしか描画されず、この値より大きい値は個々に点としてプロットされます。 |
なぜ1.5IQRか? 統計学上の理論的根拠はありません; それは単に、Tukeyが決めた方法で、彼は箱-ひげ図の考えを発明しました。
Tukeyの箱ひげ図の注意
| • | なぜ1.5IQRか? 統計学上の理論的根拠はありません; それは単に、Tukeyが決めた方法で、彼は箱-ひげ図の考えを発明しました。 |
| • | Tukeyの手法を使用してひげが作成される場合、このひげの終端は内壁と呼ばれることがあります。 |
| • | 最大値が全く75パーセンタイル + 1.51IQRに等しいとき、Prism (6.01と6.0bまで)はその値を外れ値としてプロットしません。 しかし最小値が全く25パーセンタイル - 1.5IQRに等しいとき、Prismは外れ値としてそのポイントをプロットしました。6.02と6.0cでこの不整合は解消され、そのポイントは個々にプロットされることはありません。 |
| • | 個々にプロットされる値は外れ値と呼ばれる場合もありますが、、「外れ値(outlier)」は、Grubbs検定あるいは何らかの他の外れ値検定では定義が異なります。ガウス分布からサンプル抽出されたデータでTukeyの規則による一つ以上の「外れ値」が発見される確率は、サンプルサイズに依存します。 |
| • | 群(n=3)当り3つの値を入力するだけのとき、Prismは中央値と範囲をプロットし、パーセンタイルはプロットされず、ひげをプロットする選択は無視されるでしょう。 |
| • | Prismの動作を正しく説明するように、ステップ2と3については2013年11月に修正されました。Tukeyによるひげは、常にデータポイントの値までしか描画されず、75パーセンタイル + 1.5IQR、または、25パーセンタイル - 1.5IQRまで完全に描画されることはありません。 |
| • | Tukeyの手法では、常にひげは群の値の1つに一致したところで終わります。そのため、2つのひげは多くの場合同じ長さでありません。 |
| • | ボックスプロットと箱ひげ図と云う用語は、多くの場合逆の意味で使われます。当初、ボックスプロットはTukeyのひげ(フェンス)を説明することに使われ、箱ひげ図はひげが最小値、及び最大値まで広がるプロットを説明するのに使われました。 |
五数要約
五数要約という用語は、次の5つの値のリストを表すために用いられます:最小値、25パーセンタイル値、中央値、75パーセンタイル値と最大値です。これらは、ひげが最小値および最大値までの箱ひげ図にプロットされる値と同じです。
「外れ値」という用語
外れ値と云う用語には、多くの定義があります。箱ひげ図のひげの範囲を越えてプロットされる個々のポイントは外れ値と呼ばれることもありますが、この定義はGrubbsの検定や他の外れ値検定による使われる定義とは異なります。
生データの入力ではなく、最小値、最大値、中央値と25および75パーセンタイル値を入力することで箱とひげグラフを作成する方法
通常、Prism では生データから箱ひげ図が作成されます。一連の値を入力すると、Prism でその範囲とパーセンタイルが自動的に算出され、箱ひげ図が作成されます。
最小値、25 番目のパーセンタイル、中央値、75 番目のパーセンタイルおよび最大値を入力する場合は、ほんの少し工夫が必要になります。Prism ではこれらの値が入力されたものとして認識されません。生データが入力されたものとしてグラフが作成されます。単にこれらの 5 つの値を入力した場合、Prism では最小値、最大値および中央値は正しく計算されますが、25 番目のパーセンタイル値と75 番目のパーセンタイル値は正しく計算されません。
ここで工夫が必要になります。中央値を 1 回入力する代わりに 3 回入力し、最小値、最大値、25 番目のパーセンタイル値および75 番目のパーセンタイル値も入力します。各グループについて、1 つのカラムの別の行にこれら 7 つの値を入力します (いずれの順序でもよい)。
これらの値が生データではないことを"指定"できないため、Prism ではこれらの値が生データとして "認識" されます。最小値、最大値、中央値およびこれらの 7 つの値の四分位数が計算され、算出された値がプロットされます。算出された値は、入力した値とまったく同じになります。