为什么 Mann-Whitney U 检验不直接比较平均值？

Mann-Whitney U 检验是基于“秩”（即数值在整体中的排序）进行计算的，而非原始数值。这种方法避免了极端数值对平均值的过度拉扯，从而在处理非正态分布的数据时能提供更客观的结果。

如果我的数据符合正态分布，还能用这个方法吗？

虽然可以使用，但如果数据完全符合正态分布，独立样本 t 检验通常更直接。Mann-Whitney U 检验作为一种稳健的替代方案，主要针对分布未知或非正态的数据提供可靠的推断。

当你想要比较两组数据是否存在差异，但数据分布不满足正态分布，或者存在异常值干扰时，Mann-Whitney U 检验是理想的选择。它通过比较数据的排名而非原始数值，帮助你判断两组数据在整体分布位置上是否存在显著差异，特别适用于样本量较小或分布特征不明显的业务指标分析。

Mann-Whitney U 检验通过将数据转化为排位（Rank）来评估两组数据分布位置的差异。这种处理方式有效地抵御了偏态分布和异常值的影响，使得分析结论在真实场景中更具稳定性。

不同于依赖平均值的统计方法，该检验通过对比两组数据中数值大小的相对位置，判断是否存在统计意义上的群体差异。

除了提供 p 值以判定显著性，该方法还计算秩双列相关系数（rank-biserial r）作为效应量。这一指标能够量化差异的实际程度，帮助你判断观察到的统计显著是否具有业务上的实质意义。

Lattice 会自动根据 Cohen 定义的阈值（0.1/0.3/0.5）将效应量划分为小、中、大三个级别，省去了人工查表判断的过程。

Mann-Whitney U 检验特别适合处理样本量偏小或数据结构不规则的场景。系统会自动识别样本容量，对于极小样本（n < 8）采用精确计算，而在更大样本量下则采用渐近计算，确保结论的数学严谨性。

当数据存在大量相同值（ties）时，系统会自动处理潜在的秩次平局问题，保证输出结果的准确度。

1 · Intent → method

An LLM picks svt_run_mannwhitney from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

为什么 Mann-Whitney U 检验不直接比较平均值？
Mann-Whitney U 检验是基于“秩”（即数值在整体中的排序）进行计算的，而非原始数值。这种方法避免了极端数值对平均值的过度拉扯，从而在处理非正态分布的数据时能提供更客观的结果。
如果我的数据符合正态分布，还能用这个方法吗？
虽然可以使用，但如果数据完全符合正态分布，独立样本 t 检验通常更直接。Mann-Whitney U 检验作为一种稳健的替代方案，主要针对分布未知或非正态的数据提供可靠的推断。

Schema for svt_run_mannwhitney not exported yet (run pnpm export:registry).