Geochemist？: 分位点回帰のピンボール損失

2025年8月26日火曜日

分位点回帰のピンボール損失

ピンボール損失の意味

分位点回帰では、目的変数の条件付き \(\tau\) 分位点を推定するために、ピンボール損失（チェック関数）を用いる。二乗誤差が平均を推定するのに対し、ピンボール損失は任意の分位点 \(\tau \in (0,1)\) に対応する。

残差を \(r_i = y_i - F_i\)（実測−予測）とすると、ピンボール損失は

\[ L(y_i, F_i) = \rho_\tau(r_i) = \begin{cases} \tau \, r_i, & r_i \ge 0 \quad \\[6pt] (\tau - 1)\, r_i = (1-\tau)\,|r_i|, & r_i < 0 \quad \end{cases} \]

非対称な重み付けにより、アンダーとオーバーを異なる強さで罰する。例えば \(\tau=0.9\) では、下側（予測が小さすぎ）の誤差に強いペナルティがかかり、予測は上に引き上げられて 90% 分位点に一致しやすくなる。

ピンボール損失（チェック関数）の具体例

\(\tau = 0.8\)、実測 \(y_i=5.0\) に対し、予測 \(F_i\) をいくつか試す。残差 \(r_i=y_i-F_i\) と損失 \(\rho_\tau(r_i)\) は、

予測 \(F_i\)	残差 \(r_i=y_i-F_i\)	判定	ピンボール損失 \(\rho_{0.8}(r_i)\)
4.0	+1.0	アンダー (\(r_i\ge 0\))	\(0.8 \times 1.0 = 0.8\)
5.0	0.0	一致	0
6.0	-1.0	オーバー (\(r_i<0\))	\((0.8-1)\times(-1.0)=0.2\)

同じ誤差量でも、\(\tau=0.8\) ではアンダー（+1.0）の損失 0.8 が、オーバー（-1.0）の損失 0.2 より大きい＝非対称性が働く。

最小化問題の構成

与えられたデータ \(y_i\) に対し、予測値 \(F_i\) を選ぶことで、損失の合計を最小化する。

\[ F^\star = \operatorname{arg\,min}_{F} \sum_{i=1}^n \rho_\tau(y_i - F_i) \]

分位点の定義

ある分布において、\(\tau\) 分位点 \(Q_\tau\) は、以下を満たす。

\[ P(Y \leq Q_\tau) = \tau \]

これは、観測値 \(Y\) に対し分位点 \(Q_\tau\) 以下となる確率が \(\tau\) であることを意味する。

ピンボール損失と分位点の関係性の直感的理解

ピンボール損失は、予測値 \(F_i\) が \(\tau\) 分位点 \(Q_\tau\) から外れた場合に、外れの方向に応じて異なるペナルティを課すことで、分位点の推定を誘導する。具体的には、以下の性質が働く。

例：\(\tau = 0.8\) を推定したい状況を考える。もし予測値 \(F_i\) が真の 80% 分位点 \(Q_{0.8}\) よりも1だけ小さい場合、\( y_i > F_i \) となるデータ点（残差が正）に対するペナルティは \( 0.8 \) であり、\( y_i \leq F_i \) となるデータ点（残差が負）に対するペナルティ \( 0.2 \) よりも4倍大きくなる。このため、\(F_i\) はより大きな値に引き上げられる傾向がある。
例：逆に、予測値 \(F_i\) が真の 80% 分位点 \(Q_{0.8}\) よりも1だけ大きい場合、\( y_i \leq F_i \) となるデータ点（残差が負）に対するペナルティは \( 0.2 \) であり、\( y_i > F_i \) となるデータ点（残差が正）に対するペナルティ \( 0.8 \) よりも小さくなる。このため、\(F_i\) はより小さな値に引き下げられる傾向がある。

このように、ピンボール損失を最小化する過程で、データ全体として、予測値 \(F_i\) が \(\tau\) 分位点\(Q_\tau\)に近づくように調整される。

Geochemist？