该方法学致力于回答「数据长什么样」这一核心问题。通过中心趋势、离散程度和分布形态指标，我们能直接洞察数据全貌。在 Lattice 中，这一过程遵循三段式逻辑：当您提出问题时，LLM 首先选定 `stats_describe` 等底层工具；随后，确定性数学引擎在隔离环境中运行逻辑，确保计算结果具备极高一致性；最后，LLM 将晦涩的统计数值翻译为直观的业务描述。这种方式不仅避免了统计模型选择上的盲目，还能通过直方图或箱线图等可视化形式，让数据中的异常与规律第一时间浮出水面。

何时选择这一家族

刚拿到新数据集，需要快速检查每列的缺失情况与取值范围
怀疑不同批次或组别存在差异，想通过分布对比寻找线索
准备运行复杂模型前，评估数据是否满足正态分布等基本假设
发现分析结果异常，需要确认是否存在极端值或数据倾斜

如何理解数据的分布形态

描述统计通过中心值（如均值与中位数）反映数据的平衡点，通过散布指标（如标准差与四分位距）衡量数据的离散程度，并利用偏度与峰度捕捉分布的“形状”。这些指标共同构成了数据的骨架。

除了单一数值，我们还提供可视化方案，例如直方图能直观展现数据的频率分布，而箱线图则能清晰标示出四分位数与潜在的离群点，让您一眼看清数据中是否存在聚集或离散现象。

与其他统计方法的本质差异

许多人习惯直接跳转到假设检验或回归分析，但描述统计与其有本质区别：它不试图推断总体特征，也不尝试建立因果链接，其唯一任务是如实呈现样本现状。

不同于推断统计关注「显著性」与「置信度」，描述统计是纯粹的客观陈述。它在分析流程中起到「探针」作用，能有效防止因误用模型而导致的结论偏差。

常见的分析误区

一个常见的误区是试图通过单一的均值来代表整体，却忽略了偏度或离群点的影响。当数据呈现显著偏态时，均值往往会产生误导，此时使用中位数或四分位距能提供更真实的信息。

另一个盲点是忽视分组效应。如果您在整体数据中观察到分布不均，往往是因为忽略了潜在的分类变量。始终尝试在分析中加入 `group_by` 参数，往往能揭示被掩盖的真实差异。

常见问题

为什么我计算的偏度和峰度有时会显示为 None？: 这是基于数据质量的确定性保护机制。当样本量过少（例如 n<3）或数据方差为 0 时，这些统计指标在数学上不再具备计算意义。Lattice 会在结果中提示具体原因，而不是给出无意义的计算值。
描述统计会自动删除我的异常值吗？: 不会。描述统计工具只负责识别和报告，例如在箱线图中通过 1.5 倍四分位距识别离群点。是否保留或剔除数据属于人工决策范畴，Lattice 始终保持数据的完整性，绝不隐式篡改。

描述统计

何时选择这一家族

如何理解数据的分布形态

与其他统计方法的本质差异

常见的分析误区

常见问题

这一家族下的方法

箱线图：利用 Lattice 快速对比数据分布与异常值

描述统计:任意 CSV 的第一眼概览(Lattice)

直方图：在 Lattice 中直观呈现数据分布形态

小提琴图 | 数据分布形态可视化 | Lattice 描述统计工具