数据准备不仅是分析的开端，更是保障分析结论可回溯的基础。在 Lattice 平台，我们采用派生数据集（Derived Dataset）架构，确保每一次操作——无论是过滤行、转换长宽格式还是填充缺失值——都会生成一个新的版本，而绝不篡改您的原始上传数据。这一过程严格遵循三段式执行逻辑：首先，LLM 识别您的业务意图并将其转化为特定的数据处理需求；接着，确定性的 Python 引擎执行精确的计算，生成包含血缘追踪信息的全新数据集；最后，LLM 将复杂的操作结果翻译成直观的语言反馈给您。这种设计让每一步清洗都清晰可查，彻底消除了数据处理过程中的“黑箱”效应，确保下游的统计分析建立在可靠且结构化的数据之上。

何时选择这一家族

原始数据格式无法直接用于目标统计工具（如需要将长格式转为宽格式以进行矩阵分析）。
数据集存在缺失值，且您需要根据业务逻辑（如补均值、中位数或时序前向填充）进行清理。
需要对连续数值进行分箱处理，以便将其转化为分类变量用于分组分析。
数据规模庞大，需要根据特定列条件进行过滤，仅提取关注的实验组数据。

数据准备的核心功能

本系列工具涵盖了从基础过滤到高级维度转换的操作。通过逻辑过滤（data_filter），您可以按特定条件缩小数据范围；利用分箱（data_bin），您可以将连续变量离散化；通过透视（data_pivot）和重塑（data_melt），您可以灵活调整数据布局，使之适配不同的统计建模需求。

除了结构性转换，我们还提供了填充缺失值（data_fillna）等预处理工具。这些工具通过确定性的策略，确保每一列的操作逻辑都有据可循。每个输出的数据集都带有唯一的版本标识，与原始数据保持严密的血缘链接。

与手动清洗的区别

与传统手动清洗不同，Lattice 平台禁止任何形式的隐式修改。如果用户请求将均值填充到字符类型列中，系统会明确报错而非尝试转换，这避免了因“善意修正”导致的逻辑混乱。所有的数据操作均通过确定性逻辑实现，保证了结果的完全可复现性。

这种设计不仅保护了原始数据的完整性，还通过智能推荐引擎（data_recommend_plot）根据列特征自动建议最佳绘图路径，消除了数据准备与可视化之间的鸿沟。

常见问题

为什么我使用数据填充功能时，系统报错而不是直接帮我处理？: 为了保证审计链条的严谨性，我们严格遵守“永不偷转”的决策原则。例如，若试图对非数值列执行均值填充，系统会直接报错。这种机制是为了避免因自动化处理掩盖了原始数据中的质量问题，从而确保您的统计分析结论不会受到隐性数据变动的影响。
我如何知道经过几次转换后的数据是否还是准确的？: 每一次的数据准备操作都会生成一个新的 dataset_id，并在元数据中记录原始父级 ID。您随时可以通过审计追踪功能查看数据的演变路径。此外，所有数据准备工具都会在执行后返回详细的操作摘要（如被过滤的行数、填充值的数量等），让您清晰了解数据发生的每一次变化。

数据准备

何时选择这一家族

数据准备的核心功能

与手动清洗的区别

常见问题

这一家族下的方法

使用 Lattice 进行数据变换 log/Box-Cox

缺失值填补 (data_fillna) | Lattice 数据预处理

多重插补 MICE 数据处理工具 | Lattice 平台

异常值检测 · 使用 Lattice 识别并处理数据离群点