断点回归设计通过比较阈值两侧样本的差异来评估政策效果。当你面临明确的选拔标准(如分数线、年龄门槛或资助限额)时,该方法可以帮助你剔除其他干扰因素,估算政策实施瞬间产生的因果影响。这是评估“非随机门槛”下干预成效的关键工具。
如何理解断点回归
断点回归设计(Regression Discontinuity Design)的核心逻辑在于利用准实验条件。在现实业务中,很多政策并非随机分配,而是依据某种既定的指标,例如以 60 分作为合格线,以 500 万营收作为补贴门槛。
通过分析这些门槛左右两侧数据的变化,我们可以剔除因果链条中的混杂变量。只要门槛左右的个体在其他方面高度相似,那么观察到的结果跳跃就是干预带来的直接因果效应。
带宽设置与灵敏度分析
带宽决定了我们在计算断点效应时涵盖多大范围的数据。Lattice 默认采用 IK 启发式算法来自动选择最优带宽,这能在偏差与方差之间取得平衡。
在实际决策中,我们建议你进行灵敏度分析,即尝试在不同宽度下观察结果是否稳定。如果你的结论在带宽改变时波动巨大,则需要重新审视样本在断点处的分布情况。
因果推断的验证
因果推断不应仅依赖回归系数。为了确保结论可靠,Lattice 在运行回归的同时,会强制执行反幻觉检查。如果检验发现数据在断点处存在不自然的“堆积”或“缺失”,说明可能存在个体操纵行为,此时模型输出的因果效应可能存在较大偏差。
我们坚持:如果假设(数据连续性)被违反,因果解读应当被阻断。Lattice 不会仅仅提供一个 p 值,更会直接提醒你数据分布是否支持当前的设计假设。
1 · Intent → method
An LLM picks causal_rdd from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
为什么断点回归设计特别关注阈值附近?
因为在断点附近,个体的特征最接近,这使得阈值左右两组样本在统计上具有可比性,从而模拟了随机实验的效果,使因果推断更准确。
什么是“反幻觉”检查?
在断点回归设计中,最怕的是有人为了跨过门槛而操纵数据。Lattice 会自动运行 McCrary 密度检验,如果发现阈值两侧样本分布不连续,系统会触发警告,提醒你当前的结果可能不可信。
Tool 输入字段
Schema for causal_rdd not exported yet (run pnpm export:registry).