ピンボール損失の意味
分位点回帰では、目的変数の条件付き \(\tau\) 分位点を推定するために、 ピンボール損失(チェック関数)を用いる。二乗誤差が平均を推定するのに対し、 ピンボール損失は任意の分位点 \(\tau \in (0,1)\) に対応する。
残差を \(r_i = y_i - F_i\)(実測−予測)とすると、ピンボール損失は
\[ L(y_i, F_i) = \rho_\tau(r_i) = \begin{cases} \tau \, r_i, & r_i \ge 0 \quad \\[6pt] (\tau - 1)\, r_i = (1-\tau)\,|r_i|, & r_i < 0 \quad \end{cases} \]
非対称な重み付けにより、アンダーとオーバーを異なる強さで罰する。 例えば \(\tau=0.9\) では、下側(予測が小さすぎ)の誤差に強いペナルティがかかり、 予測は上に引き上げられて 90% 分位点に一致しやすくなる。
ピンボール損失(チェック関数)の具体例
\(\tau = 0.8\)、実測 \(y_i=5.0\) に対し、予測 \(F_i\) をいくつか試す。残差 \(r_i=y_i-F_i\) と損失 \(\rho_\tau(r_i)\) は、
| 予測 \(F_i\) | 残差 \(r_i=y_i-F_i\) | 判定 | ピンボール損失 \(\rho_{0.8}(r_i)\) |
|---|---|---|---|
| 4.0 | +1.0 | アンダー (\(r_i\ge 0\)) | \(0.8 \times 1.0 = 0.8\) |
| 5.0 | 0.0 | 一致 | 0 |
| 6.0 | -1.0 | オーバー (\(r_i<0\)) | \((0.8-1)\times(-1.0)=0.2\) |
同じ誤差量でも、\(\tau=0.8\) ではアンダー(+1.0)の損失 0.8 が、 オーバー(-1.0)の損失 0.2 より大きい=非対称性が働く。
最小化問題の構成
与えられたデータ \(y_i\) に対し、予測値 \(F_i\) を選ぶことで、損失の合計を最小化する。
\[ F^\star = \operatorname{arg\,min}_{F} \sum_{i=1}^n \rho_\tau(y_i - F_i) \]
分位点の定義
ある分布において、\(\tau\) 分位点 \(Q_\tau\) は、以下を満たす。
\[ P(Y \leq Q_\tau) = \tau \]
これは、観測値 \(Y\) に対し分位点 \(Q_\tau\) 以下となる確率が \(\tau\) であることを意味する。
ピンボール損失と分位点の関係性の直感的理解
ピンボール損失は、予測値 \(F_i\) が \(\tau\) 分位点 \(Q_\tau\) から外れた場合に、外れの方向に応じて異なるペナルティを課すことで、分位点の推定を誘導する。 具体的には、以下の性質が働く。
- 例:\(\tau = 0.8\) を推定したい状況を考える。もし予測値 \(F_i\) が真の 80% 分位点 \(Q_{0.8}\) よりも1だけ小さい場合、\( y_i > F_i \) となるデータ点(残差が正)に対するペナルティは \( 0.8 \) であり、\( y_i \leq F_i \) となるデータ点(残差が負)に対するペナルティ \( 0.2 \) よりも4倍大きくなる。このため、\(F_i\) はより大きな値に引き上げられる傾向がある。
- 例:逆に、予測値 \(F_i\) が真の 80% 分位点 \(Q_{0.8}\) よりも1だけ大きい場合、\( y_i \leq F_i \) となるデータ点(残差が負)に対するペナルティは \( 0.2 \) であり、\( y_i > F_i \) となるデータ点(残差が正)に対するペナルティ \( 0.8 \) よりも小さくなる。このため、\(F_i\) はより小さな値に引き下げられる傾向がある。
このように、ピンボール損失を最小化する過程で、データ全体として、予測値 \(F_i\) が \(\tau\) 分位点\(Q_\tau\)に近づくように調整される。
0 件のコメント:
コメントを投稿