数据准备

异常值检测 · 使用 Lattice 识别并处理数据离群点

异常值检测用于识别数据集中显著偏离其他样本的数值。当您需要清理实验数据、排查测量误差或评估数据分布的均匀性时,该工具能帮助您准确定位并处理这些离群点,确保后续的统计建模分析不会被极值干扰,从而获得更可靠的分析结论。

基于统计逻辑的识别方法

Lattice 提供两种主流的异常值检测策略以适应不同类型的数据分布。对于偏态数据,工具采用 IQR(四分位距)法,通过 Tukey 围栏原理识别极值,它对非正态分布的数据具有极好的稳健性。

对于近正态分布的数据,您可以选择 Z-Score 方法。该方法通过计算数据点偏离均值的标准差倍数来判定异常,当数值超出设定的阈值范围时,该点将被标记为离群点。

透明的处理与审计

异常值检测的产出不仅仅是标记结果,还包括详细的对比报告。工具会展示剔除前后数据的均值、标准差、最小值和最大值变化,帮助您直观评估异常值对整体数据集的影响。

所有操作均生成关联的派生数据集,这确保了您的下游分析(如绘图或回归计算)始终基于明确定义的处理逻辑进行,即使在多次处理后也能追溯数据的演变过程。

灵活的行动方案

识别出异常点后,系统提供多种处理选项:您可以选择直接剔除这些样本、使用 Winsorize 方法对边界值进行缩尾处理以平滑分布,或者仅保持当前状态供后续观察。

这种灵活的交互方式让您能够根据具体业务场景决定数据清洗的深度,确保数据处理既满足统计严谨性,又符合您的特定分析目标。

1 · Intent → method

An LLM picks data_outliers from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 为什么我应该使用异常值检测工具而不是手动删除数据?

    手动处理容易引入主观偏见。异常值检测工具通过 IQR 或 Z-Score 等数学方法,提供客观的界定标准,并保留完整的处理记录,确保您的数据分析过程可追踪且透明。

  • 该工具会直接删除我的原始数据吗?

    不会。Lattice 遵循“永不修改原始数据”的原则。异常值检测会生成一个新的派生数据集,您可以自由选择剔除、修正或保留原始数值,原始上传文件始终保持完整。

Tool 输入字段

Schema for data_outliers not exported yet (run pnpm export:registry).