描述统计

箱线图:利用 Lattice 快速对比数据分布与异常值

箱线图是展示数据分布形态的直观方式。当你想了解数据的集中程度、散布范围,或是想对比不同组别之间的差异时,它能帮你快速勾勒出数据的轮廓。Lattice 会自动根据数据计算五数概括,让你一眼识别出潜在的异常值。

直观理解数据结构

箱线图的核心逻辑基于 Tukey 五数概括:最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值。通过 Lattice 生成的箱线图,你可以迅速捕捉到数据分布的“脊梁”——即中心趋势与数据的疏密程度。

不同于仅显示均值的图表,箱线图通过箱体宽度直接展示了中间 50% 数据所在的区间。当箱体较短时,说明大部分观测值非常接近;当箱体拉长时,则反映出数据具有较大的波动。

多组别对比的利器

在分析中,我们经常需要对比不同类别的表现,例如对比不同生产线的产品质量,或不同营销渠道的转化率。利用箱线图的分组功能,Lattice 可以将多组数据并在同一坐标轴下,让组间的差异一目了然。

通过观察不同箱子的位置高低,你可以直接判断各组的中心水平差异;通过对比箱子高度与触须长度,可以评估各组数据波动的一致性,从而快速定位出表现最稳定或最异常的组别。

识别极端值的辅助决策

数据分析中,异常值往往是影响结论准确性的关键。箱线图通过明确标记出离群点,帮助你排除直觉上的干扰。你无需猜测数据是否偏离了主体,图表会根据统一的标准将其以独立点的形式呈现。

需要注意的是,Lattice 采取客观呈现原则。箱线图仅仅展示这些点的存在,不会自动进行剔除或修改。这样可以确保你在分析过程中,始终拥有对数据完整性的判断权,避免因误删极端值而丢失真实业务信号。

1 · Intent → method

An LLM picks plot_boxplot from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 箱线图里的异常点(离群值)代表什么?

    在 Lattice 的箱线图中,离群值是超出四分位距(IQR)1.5 倍范围的数据点。这些点并非一定是错误数据,但它们提示你该数据序列存在极端的波动,建议重点核实其产生的原因。

  • 如果箱线图里的箱子被压扁成一条线,说明什么?

    当四分位距(IQR)为 0 时,说明你的数据中大部分样本高度集中在同一个数值附近。这意味着该组数据的变异性很小,可能无法通过常规的差异检验方法得到有效的结果。

Tool 输入字段

Schema for plot_boxplot not exported yet (run pnpm export:registry).