统计推断检验

Mann-Whitney U 检验 | Lattice 非参数差异分析

当你想要比较两组数据是否存在差异,但数据分布不满足正态分布,或者存在异常值干扰时,Mann-Whitney U 检验是理想的选择。它通过比较数据的排名而非原始数值,帮助你判断两组数据在整体分布位置上是否存在显著差异,特别适用于样本量较小或分布特征不明显的业务指标分析。

基于秩的稳健推断

Mann-Whitney U 检验通过将数据转化为排位(Rank)来评估两组数据分布位置的差异。这种处理方式有效地抵御了偏态分布和异常值的影响,使得分析结论在真实场景中更具稳定性。

不同于依赖平均值的统计方法,该检验通过对比两组数据中数值大小的相对位置,判断是否存在统计意义上的群体差异。

直观的效应量解读

除了提供 p 值以判定显著性,该方法还计算秩双列相关系数(rank-biserial r)作为效应量。这一指标能够量化差异的实际程度,帮助你判断观察到的统计显著是否具有业务上的实质意义。

Lattice 会自动根据 Cohen 定义的阈值(0.1/0.3/0.5)将效应量划分为小、中、大三个级别,省去了人工查表判断的过程。

适用性与自动化边界

Mann-Whitney U 检验特别适合处理样本量偏小或数据结构不规则的场景。系统会自动识别样本容量,对于极小样本(n < 8)采用精确计算,而在更大样本量下则采用渐近计算,确保结论的数学严谨性。

当数据存在大量相同值(ties)时,系统会自动处理潜在的秩次平局问题,保证输出结果的准确度。

1 · Intent → method

An LLM picks svt_run_mannwhitney from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 为什么 Mann-Whitney U 检验不直接比较平均值?

    Mann-Whitney U 检验是基于“秩”(即数值在整体中的排序)进行计算的,而非原始数值。这种方法避免了极端数值对平均值的过度拉扯,从而在处理非正态分布的数据时能提供更客观的结果。

  • 如果我的数据符合正态分布,还能用这个方法吗?

    虽然可以使用,但如果数据完全符合正态分布,独立样本 t 检验通常更直接。Mann-Whitney U 检验作为一种稳健的替代方案,主要针对分布未知或非正态的数据提供可靠的推断。

Tool 输入字段

Schema for svt_run_mannwhitney not exported yet (run pnpm export:registry).