数据可视化

Q-Q 图 | 数据分布正态性检测工具 | Lattice

当你想确认一批数据是否服从正态分布,或者评估数据是否存在明显的异常值时,使用 Q-Q 图最合适。它通过将你的数据点与理论上的标准分布进行比对,让你通过观察点位是否落在参考线上,一眼看出分布是否偏离预期,而无需复杂的统计计算。

直观评估分布假设

Q-Q 图(分位数-分位数图)的核心逻辑是将样本的实际分位数与选定分布(如正态、对数正态)的理论分位数进行配对。这种可视化方式避开了繁琐的假设检验流程,直接呈现数据的全貌。

在 Lattice 中,你只需选定列名,平台会自动计算分位数并生成参考线。无论是处理实验残差还是观测样本,都能通过这种方式快速达成一致的分布判别。

识别离群值与分布形态

除了检验正态性,Q-Q 图在定位数据质量问题方面表现出色。通过观察位于参考线末端的点位,你可以清晰地看到数据是否包含超出预期的离群值。

如果数据点在参考线两端呈现出系统性的偏离,这往往是数据存在重尾或轻尾特征的信号,比单纯查看均值和标准差更能反映原始数据的真实分布特性。

支持灵活的参考线选择

为了应对不同的数据场景,你可以选择不同的参考线计算方式。默认的稳健参考线(Filliben 方法)在处理包含异常值的数据集时具有更强的抗干扰能力,确保你看到的分布趋势不会被单一异常点严重扭曲。

如果你需要对数据的分布特征有更严苛的把控,也可以根据均值和标准差绘制基准参考线,以此衡量数据偏离标准正态分布的具体程度。

1 · Intent → method

An LLM picks plot_qq from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • Q-Q 图中的参考线代表什么?

    参考线代表了数据完全符合理论分布(如正态分布)时的理想状态。如果你的数据点紧密围绕在这条线附近,说明样本分布与目标分布高度吻合;如果点在两端明显偏离,则暗示存在偏态或极端的离群值。

  • 为什么我的数据点没有完全落在参考线上?

    现实中的数据很少完全重合。轻微的波动是正常的,但如果点呈现出明显的弯曲(如 S 形或弧形),通常意味着数据具有偏态或更长的尾部。你可以通过 Q-Q 图观察这些偏离的趋势,从而决定是否需要对数据进行对数或其它变换。

Tool 输入字段

Schema for plot_qq not exported yet (run pnpm export:registry).