数据准备

缺失值填补 (data_fillna) | Lattice 数据预处理

当你发现数据集中存在缺失值,且这些空白阻碍了进一步分析时,请使用此方法。它能按照你选择的逻辑(如用均值替代或向前引用)填充空缺,同时保持数据集的原始完整性。此工具通过生成独立的数据副本,确保你的原始数据始终不受影响,并提供清晰的填补过程记录。

为什么选择缺失值填补

在数据分析中,缺失值是导致结果偏差的常见原因。缺失值填补通过预设的逻辑将这些空白填满,使后续的绘图或统计模型能够正常运行。我们提供多种策略,包括均值、中位数、向前/向后填充以及指定常数,以适应不同的数据分布和业务场景。

如何选择合适的填补策略

选择策略时,应充分考虑数据的本质。对于符合正态分布的数值数据,‘均值’填补是常用做法;而对于存在极端值的长尾分布,‘中位数’则更为稳健,不容易受异常值影响。对于具有前后因果关系的时序数据,‘向前填充’(ffill)或‘向后填充’(bfill)能更好地保留数据的连续趋势。

如果你需要对类别数据进行统一标注,或者想将所有缺失项统一重置为 0,‘常数填充’是直接且有效的选择。

透明与可追溯的流程

Lattice 的设计哲学是确保分析过程完全透明。执行缺失值填补后,你会获得一份包含‘已填充数量’和‘剩余缺失数’的详尽反馈。这种方式不仅让你清楚知道数据发生了什么改变,还能确保在进行复杂的统计分析时,每一处数据变动都有据可查。

1 · Intent → method

An LLM picks data_fillna from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 缺失值填补会改动我上传的原始文件吗?

    不会。Lattice 的所有数据处理均遵循“永不修改原始数据”的决策原则。使用此方法后,系统会生成一个新的数据集副本,你可以放心地在下游分析中引用它。

  • 为什么非数值列不能用“均值”策略填补?

    为了避免误操作,系统对数据类型有严格限制。对文本列强行使用均值计算在统计学上没有意义,因此该方法会强制报错,防止产生错误的数据结果。

  • 如果填补后仍有缺失值怎么办?

    在使用向前填充或向后填充策略时,若首行或尾行本身就是空值,则无法填补。系统会生成详细的报告,明确指出每列剩余的缺失值数量,方便你根据实际情况进一步处理。

Tool 输入字段

Schema for data_fillna not exported yet (run pnpm export:registry).