因果推断

倾向得分匹配 | Lattice 因果推断平台

当您在观察性数据中评估某项举措的效果,但处理组与对照组在背景特征上存在显著差异时,请使用此方法。它通过模拟“类似”个体间的对比,剥离混杂变量干扰,为您还原更接近真实的因果效应。

解决观察性数据的选择偏差

在没有随机分组的情况下,直接对比处理组与对照组的均值往往会误导决策。倾向得分匹配的核心逻辑是通过 Logistic 回归计算每个个体进入处理组的概率(即倾向得分),并据此寻找具有相似倾向得分的配对样本。

通过这种配对方式,Lattice 能够构建一个人工的“准实验”环境,使得匹配后的两组样本在已知的混杂变量分布上保持一致,从而更精准地估算平均处理效应(ATT)。

内置平衡性校验(Balance Check)

因果推断的关键不在于计算结果本身,而在于假设的验证。在倾向得分匹配过程中,平台会自动计算每个变量在匹配前后的标准差平均值(SMD)。

如果匹配后任一变量的 SMD 仍超过 0.1,系统将触发平衡性警告。这不仅是学术上的严谨要求,更是在提示您:当前数据可能未充分覆盖所有混杂因素,因果解读需保持审慎。

评估样本的代表性

若匹配过程中剔除了过多的样本(超过 10%),说明处理组与对照组之间的重叠度不足。这种情况被称为共同支撑(Common Support)缺失。

Lattice 会监控这一指标,并明确告知您当前的结论是否具有外推性。当共同支撑较弱时,我们建议您不要将结果视为群体的普遍规律,并检查数据样本的基础质量。

严谨的置信区间计算

为了应对非参数匹配过程带来的不确定性,本方法默认采用 bootstrap 自助采样法计算 95% 置信区间与 p 值。这种方式通过重复抽样评估结果的稳定性,确保您看到的每一个数字都有可靠的统计支持。

1 · Intent → method

An LLM picks causal_psm from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 为什么匹配后还需要查看 SMD 平衡性?

    即使匹配完成,如果某项特征在匹配后的 SMD 值仍大于 0.1,说明该维度的组间差异依然显著,此时直接解读因果效应可能会产生偏差。Lattice 会在倾向得分匹配中内置此检查,提醒您关注条件独立性假设的有效性。

  • 如果出现“共同支撑域弱”(Support Concern),意味着什么?

    这表示有超过 10% 的处理组样本在对照组中找不到对应的相似匹配。在这种情况下,匹配出的结果仅代表那部分“可匹配样本”的效应,不能直接推及整个处理群体。建议审视数据分布或调整匹配逻辑。

Tool 输入字段

Schema for causal_psm not exported yet (run pnpm export:registry).