关联分析

相关性热力图:多变量关联的矩阵化分析 | Lattice

相关性热力图是观察多个变量之间成对关系的直观方式。当你想快速识别哪些指标共同变动、哪些毫无关联时,它能将复杂的数据矩阵转化为易于阅读的色块图。它不仅能显示关联的方向和强度,还能通过显著性星号直接点出具有统计意义的关联关系。

为什么选择相关性热力图?

在处理多指标分析时,逐一比较散点图效率较低。相关性热力图将所有变量的关联系数集中在单一视图中,你可以一眼识别出哪些变量组合存在强关联,从而缩小数据分析的范围。

Lattice 的相关性热力图不仅计算矩阵,还会自动完成显著性检验。通过将显著性结果以星号叠加在色块上,你可以避开那些“看起来相关但实际上毫无统计依据”的噪声数据。

根据数据特点选择计算方法

Lattice 支持三种核心相关性计算方法。对于呈现线性趋势的连续型数据,默认使用 Pearson 相关系数;若数据包含异常值,或变量属于等级评定(如满意度评分),则建议切换为 Spearman 秩相关;对于小样本且存在大量重复值的情况,Kendall τ 提供了更稳健的分析结果。

解读关联:这是相关而非因果

这是分析中的铁律:关联并不等同于因果。即使两个指标的相关性热力图显示为强正相关,也不能直接断定指标 A 导致了指标 B。它们可能由共同的第三方因素影响(如时间、温度或季节性波动)。

在阅读结果时,请将相关性视为发现问题的线索而非结论。如果发现某组变量高度相关,下一步建议进行更深入的因果验证或参考偏相关分析,以排除潜在的混淆变量。

处理复杂数据集

若你的数据存在明显的分组特征,例如不同市场的用户行为表现,直接计算整体矩阵可能会掩盖分组差异(即辛普森悖论)。Lattice 支持通过分组维度独立生成多张热力图,确保你看到的关联特征是真实存在于各个子集中的。

1 · Intent → method

An LLM picks plot_corr_heatmap from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 热力图中的颜色深浅代表什么?

    热力图使用 RdBu 色标(红-蓝配色):深蓝色代表正相关(两个变量同向变动),深红色代表负相关(两个变量反向变动)。颜色越浅或趋近于白色,说明变量之间的相关性越弱。

  • 单元格中的星号(*)是什么意思?

    星号表示该组变量间的相关性在统计学上是显著的(即 p 值小于设定的 alpha 水平)。没有星号的单元格表示观察到的关联可能是由随机波动导致的,不建议作为业务决策的依据。

Tool 输入字段

Schema for plot_corr_heatmap not exported yet (run pnpm export:registry).