泊松回归适用于分析「发生了多少次」的计数类数据。当你需要研究多个因素(如投放渠道、时长、特征)如何共同影响不良事件数、入院人次或产品缺陷数时,使用此方法可以量化每个因素对事件发生率的净贡献,并自动处理观测窗口的差异。
理解计数回归的逻辑
泊松回归通过对数连接函数,将输入变量与事件发生的对数率联系起来。在分析时,它不仅能告诉你变量是否具有统计学意义,还能直接以「发生率比」(Rate Ratio, RR)的形式展示结果。例如,RR 为 1.25 意味着自变量每增加一个单位,事件发生的比率将增加 25%。
Lattice 的泊松回归工具会自动进行模型拟合与诊断,无需手动编写复杂的代码。系统会输出 McFadden 伪 R² 来衡量模型的解释力,并计算 95% 置信区间以确保结论的可信度。
处理观测窗口与比例模型
在实际运营或科研中,不同样本的观测时长往往不同(例如,对比不同店面的月度投诉,有的店开了 10 天,有的店开了 30 天)。
通过在该工具中设置「曝光量」(exposure),泊松回归会将计数转化为「发生率」进行建模。模型会自动取对数并将结果作为偏移量(offset)处理,从而确保分析结果反映的是单位时间或单位规模下的真实效应,避免因统计时长不同而导致的偏误。
过度离散检验与模型健壮性
泊松模型的一个常见风险是「过度离散」,即实际观测到的数据波动大于泊松分布的理论预测。如果忽略这一点,模型给出的标准误(SE)会过小,导致 p 值虚高,从而出现「假阳性」结论。
Lattice 会自动执行 Pearson 卡方检验来计算离散比率。当该比率超过 2.0 时,系统会判定为严重离散,并明确建议降级使用负二项回归。这种自动化的诊断流程,确保了你在面对不同质量的数据时,始终能获取最稳健的统计解读。
1 · Intent → method
An LLM picks regression_poisson from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
泊松回归要求数据必须满足什么条件?
泊松回归要求响应变量必须是非负整数。此外,该模型有一个核心假设,即数据的平均值(mean)应大致等于方差(variance)。Lattice 会自动计算离散比率,如果比率过高,系统会建议你改用负二项回归以获得更准确的置信区间。
如果我的数据里有很多零,可以使用泊松回归吗?
可以。泊松回归能够处理包含零计数的数据。如果你的数据中零值比例极高(零膨胀),可能需要更专业的模型,但对于一般的计数场景,泊松回归提供了一个标准的分析基准。
Tool 输入字段
Schema for regression_poisson not exported yet (run pnpm export:registry).