当你需要判断两个分类变量(例如“不同渠道”与“用户转化状态”)是否互相关联时,可以使用卡方检验。它通过对比观测到的实际数据与理论上的随机分布,帮你判断两组分类结果之间的差异是仅仅出于偶然,还是确实存在统计学上的关联。
直观理解分类关联
在处理市场调研或用户行为数据时,我们经常面对分类标签。例如,想知道“设备类型(手机/电脑)”是否影响“点击行为(点击/未点击)”。卡方检验通过构建列联表,将实际观察到的频数与预期无关联时的理想频数进行对比。
如果两者的差距足够大,Lattice 会报告 p 值,帮助你判断观察到的比例差异是否具有统计学意义,而非简单的随机波动。
如何解读效应量:Cramér's V
统计显著性(p 值)仅告诉你“是否有差异”,而效应量 Cramér's V 则告诉你“差异的强度”。在 Lattice 中,我们将其划分为小、中、大三个等级。
Cramér's V 的值越接近 1,表示两个变量之间的关联程度越紧密。通过查看这一指标,你可以快速识别哪些因素对你的业务影响最为显著,避免被表面上的细微差异所误导。
自动校正与严谨性
针对 2×2 的列联表,Lattice 会自动应用 Yates 连续性校正,以减少在近似计算中产生的偏差。这一过程对用户完全透明,确保你在分析时能够获得最稳健的推断结果。
如果数据分布极度不均衡导致期望频数过低,系统会触发警告并建议改用更精确的方法,确保你的决策建立在可靠的统计基础之上。
1 · Intent → method
An LLM picks svt_run_chi2 from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
卡方检验适合处理连续数值吗?
不适合。卡方检验专门用于处理分类数据。如果你的数据是连续数值(例如身高、收入),请使用 t 检验或方差分析等其他方法。
如果我的数据样本量很小,卡方检验还能用吗?
当列联表中存在较多期望频数小于 5 的格子时,卡方检验的结果可能不准确。在这种情况下,Lattice 会提示你改用 Fisher 精确检验,它在小样本下更为精准。
Tool 输入字段
Schema for svt_run_chi2 not exported yet (run pnpm export:registry).