機械学習で生成した分類器の性能を評価するときに、混同行列が使われる。次の混同行列が得られたとき、F値 (F-measure) に最も近い値はどれか。
┌─────────┐
│ 予測 │
├────┬────┤
│Positive│Negative│
┌───┬────┼────┼────┤
│ │Positive│ 40 │ 30 │
│実 際├────┼────┼────┤
│ │Negative│ 20 │ 10 │
└───┴────┴────┴────┘
@ 1/2 A 2/3 B 4/7 C 8/13 D 9/10
正解
C
解説
まず、混同行列は4つのクラスに分類できる。
┌─────────┐
│ 予測 │
├────┬────┤
│Positive│Negative│
┌───┬────┼────┼────┤
│ │Positive│ TP │ FN │
│実 際├────┼────┼────┤
│ │Negative│ FP │ TN │
└───┴────┴────┴────┘
実際:Positive、予測:Positive は、TP (True Positive)
実際:Positive、予測:Negative は、FN (False Negative)
実際:Negative、予測:Positive は、FP (False Positive)
実際:Negative、予測:Negative は、TN (True Negative)
混同行列の指標はいくつかあるが、F値に関わる指標は2つある。
適合率 = TP / (TP + FP)
再現率 = TP / (TP + FN)
F値は、適合率と再現率の調和平均のことであり、適合率の逆数と再現率の逆数の平均の逆数で求められる。式で書くと
適合率の逆数と再現率の逆数の平均は、
((1 / 適合率) + (1 / 再現率)) / 2だから、
F値 = 2 / ((1 / 適合率) + (1 / 再現率))
= (2 × 適合率 × 再現率) / (適合率 + 再現率)
= (2 × TP / (TP + FP) × TP / (TP + FN))
/ (TP / (TP + FP) + TP / (TP + FN))
= 2 × TP × TP / TP(TP + FN) + TP(TP + FP)
= 2TP / (2TP + FN + FP)
となる。
これらを踏まえる。
適合率 = TP / (TP + FP) = 40 / (40 + 20) = 2/3
再現率 = TP / (TP + FN) = 40 / (40 + 30) = 4/7
F値 = 2 / ((1 / 適合率) + (1 / 再現率)) = 2 / (3/2 + 7/4)
= 2 ÷ (13/4)
= 8/13
と分かる。