Pearson、Spearman 和 Kendall 这三种方法该怎么选？

通常情况下，如果数据呈线性分布，使用 Pearson；如果数据存在异常值或呈非线性单调增长，Spearman 更合适；如果是小样本数据且存在大量重复值，推荐使用 Kendall 方法。Lattice 会根据你的数据分布自动进行适配。

相关系数分析 · 衡量变量间线性与单调关系

当你想要了解两组数据是否“同进同退”时，使用相关系数分析。它能衡量变量间的关联强度和方向，帮助你发现业务指标、实验数据或工艺参数之间的联系。Lattice 会根据数据特点自动选择计算方法，并将复杂的数值转化为直观的结论，让你一眼看清数据间的联动逻辑。

相关系数通过数值在 -1 到 +1 之间反映关联强度。+1 代表完全正相关，即一个变量增加时另一个也增加；-1 代表完全负相关；而 0 则表示两者之间没有明显的线性联系。

在数据分析中，这能帮助你识别关键驱动因素。例如，查看广告支出与销售额的相关性，或分析生产环节中的温度与产品良率的关系，从而锁定哪些指标值得进一步深入挖掘。

Lattice 会输出相关系数矩阵及显著性 p 值。相关系数的大小直接反映了关联的紧密程度，而 p 值则帮助你判断这种相关性在统计上是否具有参考价值。

需要提醒的是，当样本量非常大时，即使相关系数很小，p 值也可能表现出显著性。因此在解读时，我们建议优先关注相关系数的实际大小（绝对值），以此判断这种关联在业务上是否真的有意义。

相关分析并非万能。例如，当数据存在极端异常值或呈 U 型曲线时，简单的线性相关系数可能会产生误导。建议在查看相关系数的同时，配合散点图观察数据形态，以确保结论的准确性。

如果发现数据呈现复杂的非线性关系或存在“辛普森悖论”（即整体趋势与局部趋势相反），建议通过分组对比或进一步的统计建模来深入剖析，避免仅凭单一指标做出判断。

1 · Intent → method

An LLM picks stats_correlation from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

相关系数高，就代表一个变量导致了另一个变量吗？
不是的。相关系数仅衡量两个变量一起变动的强度和方向，并不代表因果。例如，两个变量可能同时受到第三个隐形因素的影响，因此请务必将相关结果视为数据探索的线索，而非因果结论。
Pearson、Spearman 和 Kendall 这三种方法该怎么选？
通常情况下，如果数据呈线性分布，使用 Pearson；如果数据存在异常值或呈非线性单调增长，Spearman 更合适；如果是小样本数据且存在大量重复值，推荐使用 Kendall 方法。Lattice 会根据你的数据分布自动进行适配。

Schema for stats_correlation not exported yet (run pnpm export:registry).