2026年1月4日日曜日

因果推論と機械学習 その3

Meta-Learner; 「任意の汎用 ML モデル(回帰・分類器など)を部品として組み合わせ、因果効果(ATE/CATE など)を推定する“枠組み”」とのことですが、DR(Doubly Robust)、DML(Double / Debiased ML)等はこれに含めないそうです。いずれもMLを部品として組み合わせて CATE を推定しているのですが、図書を読んだだけではその差を理解できませんでした。

3. DR / DML 系、因果フォレスト

Learner

step

モデルNo.

説明変数

目的

変数

推定対象

DR

1

1a

1b

X (T=0)

X (T=1)

Y

Y

T-Learnerと同じ

 

 

1c

X

T

傾向スコア;e(X)

 

2

 

 

 

DR擬似効果の計算;(例)ṫ(X) = (μ₁(X) μ₀(X)) + [(T e(X)) / (e(X) * (1 e(X)))] * (Y μ_{T=T}(X))

 

3

2

X

(X)

CATE; τ(X) = E[(X)|X]

DML

1

1a

X

Y

Yの応答関数 μY(X) = E[Y|X]

 

 

1b

X

T

Tの応答関数 μT(X) = E[T|X]

 

2

 

 

 

残差を計算:εY= Y - μY(X), εT= T - μT(X)

 

3

2

εT

εY

CATE; τ(X)LinearDML ではεT の係数をτと解釈)

Causal Forest

1

1a
1b

X
X

Y
T

DMLと同じ

 

2

 

 

 

DMLと同じ

 

3

 

X, εT, εY

 

ランダムフォレストを使用して、各ノードで処置効果の異質性(分散)を最大化する分割を選択。ノードでの処置効果 = Σ(εY × εT) / Σ(εT²)

 

4

 

 

 

CATE; τ(X)(各特徴量Xの組み合わせに対して、局所的な処置効果を推定)

 

  • e(X)は「データからの比率」から求めるか、XT のモデルで推定(DR)。
  • DR:μ₀, μ₁, e を一つの式で混ぜた DR擬似効果 (X) を作り、それを1本の τ(X) モデルで学習。
  • DMLLinearDML):Y T X による予測で残差化し、残差同士を線形回帰して τ(X) を得る。

3つの中だとDMLが好みです。

因果推論と機械学習 その2

 S-、T-、X-Learner は meta-learner(メタ学習器)とと呼ばれる枠組みに属し、機械学習による因果推論を実現する基本的アプローチのようです。X は比較的新しいとのことですが、SとTは古くから利用されています。

これらは「条件付き平均処置効果(CATE)」を推定するための推論フレームワークで、「もしこの人、モノ、事象に介入したら、しなかった場合と比べてどうなるか?」という効果(潜在的結果)を、観察データ(処置+特徴量+結果)から推測・推定する方法です。S, T に最新の機械学習フレームワークを組み込むことで発展し、推定精度も向上するのでしょう。

2. Meta-Learner

Learner

step

モデルNo.

説明変数

目的

変数

推定対象

S-Learner

1

1

(T, X)

Y

処置TX特徴量が与えられたときの結果Yの期待値(平均値); μ(T, X) = E[Y|T, X]

 

2

 

 

 

CATE 条件付き平均処置効果;
τ(X) = μ(1,X) - μ(0,X)

T-Learner

1

1a
1b

X (T=0)
X (T=1)

Y
Y

対照群(処置なし)における結果Yの期待値;μ₀(X) = E[Y|T=0, X]
処置群(処置あり)における結果Yの期待値; μ₁(X) = E[Y|T=1, X]

2

CATE; τ(X) = μ₁(X) - μ₀(X)

X-Learner

1

1a
1b

X (T=0)
X (T=1)

Y
Y

T-Learnerと同じ

 

2

 

 

 

対照群の補完効果(反事実予測 - 実際の結果); d₀ = μ₁(X) – Y
処置群の補完効果(実際の結果 - 反事実予測); d₁ = Y - μ₀(X)

3

2a
2b

X (T=0)
X (T=1)

d₀
d₁

対照群で学習した補完効果の条件付き期待値; τ₀(X) = E[d₀|X]
処置群で学習した補完効果の条件付き期待値;  τ₁(X) = E[d|X]

4

 

 

 

CATE; τ(X) = e(X)·τ1(X) + (1-e(X))·τ0(X)

  • S-, T-はモデル(応答関数)で潜在的結果を推定(期待値として算出)し、後処理としてCATEを算出。X-はモデルでCATEを推定。
  • e(X)は「データからの比率」から求めるか、X→T のモデルで推定(DR)。


2026年1月3日土曜日

因果推論と機械学習 その1

因果推論は古くからある手法のようですが、現代では機械学習と結びついて発展しているようです。
あらためて、それらの関連用語を整理します。

1. 基本用語

Terms

用語

記号

意味

Treatment

処置

T

処置群か対照群かを示す二値変数(1: 処置群, 0: 対照群)

Outcome

結果

Y

目的変数

Covariates / Features

共変量・特徴量

X

説明変数

CATE; Conditional Average
 Treatment Effect

条件付き平均処置効果

τ(X)

共変量 X が与えられた場合の平均処置効果

Average Treatment Effect

平均処置効果

ATE

集団全体の平均的な処置効果

Propensity Score

傾向スコア

e(X)= P(T=1|X)

処置を受ける確率

Potential Outcome

潜在的結果

Y(t)

ある個人が、各処置状態t(例: t=0,1)をもし受けていた
ならば観測されるであろう結果。各個人は、Y(0)Y(1)
両方の潜在的結果を持つと仮定する。

Counterfactual

反事実

Y(1-T)

ある個人が実際に受けた処置Tとは異なる処置1−T を受け
ていたならば観測されたであろう、実際には観測されて
いない方の潜在的結果。

Imputed Treatment Effect

補完された効果

d₀, d₁

観測されなかった反事実を推定・補完することで得られる、
処置効果の推定値。特にX-Learnerで用いられる概念を指す。

Response Function

応答関数

μ(·)

共変量 X と処置 T の関数として、結果 Y の条件付き期待値を
モデル化する関数。

Expectation

期待値

E[·]

確率変数の平均値

Conditional Expectation

条件付き期待値

E[Y|条件]

ある条件下での結果の平均値

DR pseudo-outcome

DR擬似効果

(X)

DR推定量に基づくCATE学習用の擬似ラベル

Residual

残差

ε

予測値と実測値の差

 

2026年1月2日金曜日

因果推論

データを眺めている段階で見つけやすいのが相関性。

AとBには相関性、線形性がある。というような内容は頻繁に出てきますし、お客様にも説明します。が、Aの増加がB向上の原因、というような因果関係としては話せません。にもかかわらず、そのように解釈される方は多々いらっしゃいます。

何か良い方法はないか?と探していたところ、因果推論という手法があることを知りました。Amazon で見てみると、多くの図書が販売されています。枯れた手法なのでしょう。冬休みに入る前に2冊購入し、休みの間読んでいました。

これがなかなか頭に入りません。いえ、もともと統計が好きでなかった私には向いていないのだと思います。が、交互に読めば(と言ってもまだ読み終わっていませんが)基本的な内容は理解できました。わからないところは LLM に投げる。これがなかったら途中で投げ出していたことでしょう。

まずは初歩的な用語を列挙。日本語の図書を読んでいますが、利用可能なツールは英語なので、併記しておきます。


因果推論:causal inference
処置:treatment
介入:intervention
処置群:treatment group / treated group
対照群:control group
エスティマンド:estimand

疑似相関:spurious correlation
交絡:confounding
選択バイアス:selection bias

因果ダイアグラム:causal diagram
有向非巡回グラフ:DAG (directed acyclic graph)
d分離:d-separation
チェーン:chain (X → M → Y)
フォーク:fork / common cause (X ← Z → Y)
コライダー:collider (X → C ← Y)
バックドア条件:backdoor criterion
フロントドア条件:frontdoor criterion

単調性制約と相互作用制約

これまでは予測性能向上を目的にモデルを組んできました。が、お客様からよく聞かれたのはその解釈性、これまでの知見との整合性、妥当性です。予測性能が下がっても、解釈性が良いモデルの方が求められる場合もあるでしょう。

簡単なのは専門知見をベースとした制約をモデルに加えることです。単調性制約と相互作用制約は、モデルの解釈性を高めるためのツールの一つです。すでに有名なフレームワークには実装されていますので、トレードオフを提示するのは容易でしょう。


1. 単調性制約 (Monotonicity Constraints)
概要: 特徴量と予測値の関係に、単調増加または単調減少という制約を課すもの。

単調増加: 特徴量の値が増加すると、予測値も増加
単調減少: 特徴量の値が増加すると、予測値は減少。

利点:
解釈性向上: モデルの挙動が直感的になり、説明可能性が高まる。
過学習抑制: 不自然な関係性を学習することを防ぎ、汎化性能の向上が期待できる。
ドメイン知識の活用: 特定の特徴量と予測値の関係について、専門家の知識をモデルに組み込むことができる。

実装: XGBoost、LightGBM、scikit-learnのGeneralized Linear Models など。モデルの学習時に、どの特徴量に対してどの単調性を適用するかを指定。


2. 相互作用制約 (Interaction Constraints)
概要: モデルが学習できる特徴量間の相互作用を制限するもの。特定の組み合わせの特徴量だけが相互作用を持つように制約できる。

利点: 単調性制約と同様(解釈性向上、過学習抑制、ドメイン知識の活用)。

種類:
禁止された相互作用 (Forbidden Interactions): 特定の組み合わせの特徴量間の相互作用を禁止する。
必須の相互作用 (Mandatory Interactions): 特定の組み合わせの特徴量間の相互作用を強制する。

実装: LightGBM、EBM (Explainable Boosting Machine) など。


やり残し事項 2025

冬休みに入り、依頼されていた査読を実施し、自身の成果を修正し、新たな計算を始め、必要な知識を仕入れていると年を越してしまいました。

2024年のやり残し事項は優先度低のみでした。
GPGPUに関してはSPHコードで取り組みましたがなかなか速くならず。プロに頼まないと速くならない点は理解していましたが、それでもと少しはと期待していました。難しいですね。
ということでDtransuのGPU化は取りやめ。地下水の仕事は別部署になってしましましたので、もう触ることはないかもしれません。
地表流ー地下水ー変形の連成はSPHで組みましたが、まだまだ実務で使えるレベルには到達していません。あと一歩なのですが、まだまだ難しそうです。これは優先度低のまま残しておきます。

短期目標には再び、「機械学習のスキル増強」を掲げましょう。性能、トレンドの変化が早すぎてなかなか追いつけませんでした。横のつながりが欲しいところです。

中期目標は順調。このまま続けます。

優先度中:機械学習のスキル増強
優先度低:流体+個体(不連続体+連続体)+振動

今年も歩みを止めないよう、進んで参ります。