方法

数据准备

数据准备工具集专为需要清洗、转换和格式化原始实验数据的操作员、质量工程师及科研人员设计。无论您处于数据探索初期还是统计分析前夕,当您的数据集需要进行分箱、透视或处理缺失值,以满足下游绘图与分析工具的输入要求时,请使用此功能。

数据准备不仅是分析的开端,更是保障分析结论可回溯的基础。在 Lattice 平台,我们采用派生数据集(Derived Dataset)架构,确保每一次操作——无论是过滤行、转换长宽格式还是填充缺失值——都会生成一个新的版本,而绝不篡改您的原始上传数据。这一过程严格遵循三段式执行逻辑:首先,LLM 识别您的业务意图并将其转化为特定的数据处理需求;接着,确定性的 Python 引擎执行精确的计算,生成包含血缘追踪信息的全新数据集;最后,LLM 将复杂的操作结果翻译成直观的语言反馈给您。这种设计让每一步清洗都清晰可查,彻底消除了数据处理过程中的“黑箱”效应,确保下游的统计分析建立在可靠且结构化的数据之上。

何时选择这一家族

数据准备的核心功能

本系列工具涵盖了从基础过滤到高级维度转换的操作。通过逻辑过滤(data_filter),您可以按特定条件缩小数据范围;利用分箱(data_bin),您可以将连续变量离散化;通过透视(data_pivot)和重塑(data_melt),您可以灵活调整数据布局,使之适配不同的统计建模需求。

除了结构性转换,我们还提供了填充缺失值(data_fillna)等预处理工具。这些工具通过确定性的策略,确保每一列的操作逻辑都有据可循。每个输出的数据集都带有唯一的版本标识,与原始数据保持严密的血缘链接。

与手动清洗的区别

与传统手动清洗不同,Lattice 平台禁止任何形式的隐式修改。如果用户请求将均值填充到字符类型列中,系统会明确报错而非尝试转换,这避免了因“善意修正”导致的逻辑混乱。所有的数据操作均通过确定性逻辑实现,保证了结果的完全可复现性。

这种设计不仅保护了原始数据的完整性,还通过智能推荐引擎(data_recommend_plot)根据列特征自动建议最佳绘图路径,消除了数据准备与可视化之间的鸿沟。

常见问题

为什么我使用数据填充功能时,系统报错而不是直接帮我处理?
为了保证审计链条的严谨性,我们严格遵守“永不偷转”的决策原则。例如,若试图对非数值列执行均值填充,系统会直接报错。这种机制是为了避免因自动化处理掩盖了原始数据中的质量问题,从而确保您的统计分析结论不会受到隐性数据变动的影响。
我如何知道经过几次转换后的数据是否还是准确的?
每一次的数据准备操作都会生成一个新的 dataset_id,并在元数据中记录原始父级 ID。您随时可以通过审计追踪功能查看数据的演变路径。此外,所有数据准备工具都会在执行后返回详细的操作摘要(如被过滤的行数、填充值的数量等),让您清晰了解数据发生的每一次变化。

这一家族下的方法