当你需要比较三组或以上数据的表现,但数据分布不均匀、存在极端异常值,或样本量过小时,Kruskal-Wallis 检验是理想的选择。它通过比较数据的排列顺序而非原始数值,帮助你判断组间是否存在显著的统计学差异,确保分析结果在非理想条件下依然可靠。
超越正态分布的限制
在实际业务数据中,数据往往不是完美的钟形曲线。当你的数据呈现严重偏态,或者包含无法剔除的离群点时,传统的方差分析可能会产生偏差。Kruskal-Wallis 检验通过将原始数值转换为排序(秩),从而消除了分布形态对结果的影响。
这种基于秩的逻辑确保了即便面对波动极大的数据,你依然能够捕捉到组间真实的差异趋势,而不被极端值左右。
如何理解检验输出
Lattice 在执行该检验时,会返回 H 统计量、p 值以及效应量(ε²)。p 值决定了差异是否具有统计学意义,而效应量则通过 Tomczak 指标告诉你差异的实际影响程度(小、中或大)。
通过观察返回的各组中位数和平均秩,你可以直观地判断哪一组的表现相对更高或更低,为后续的策略调整提供直接的定性依据。
关于数据规模的决策建议
虽然该方法适用于各种规模的数据,但如果样本量极小(例如每组少于 5 个样本),结果的统计功效可能会减弱。Lattice 会在分析时监测这一点并给出提醒。
此外,如果你的业务场景恰好只有两组数据,我们会自动建议使用 Mann-Whitney U 检验。这种智能调度确保你始终使用最契合当前数据特征的方法进行对比。
1 · Intent → method
An LLM picks svt_run_kruskal from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
Kruskal-Wallis 检验和普通方差分析(ANOVA)有什么区别?
ANOVA 假设数据呈正态分布且方差一致,关注的是“均值”差异;而 Kruskal-Wallis 检验基于数据的秩(排序),不对分布做任何强制假设,关注的是“中位数”或分布位置的差异,因此在处理偏态数据或小样本时更稳健。
如果 Kruskal-Wallis 检验的结果显著,我该怎么办?
这代表各组数据之间确实存在显著差异,但该检验本身不会告诉你具体是哪两组之间不同。此时建议进行事后分析(Post-hoc test),例如 Dunn's test,以明确区分具体的差异来源。
Tool 输入字段
Schema for svt_run_kruskal not exported yet (run pnpm export:registry).