当你的数据分布严重倾斜(如长尾分布或极端值较多)时,直接进行分析可能导致偏差。使用数据变换 log/Box-Cox 可以调整数据的分布形态,使其更接近正态分布,从而帮助你更精准地捕捉数据中的核心规律,确保后续的统计建模更具可解释性。
优化数据分布的逻辑
在分析过程中,很多统计方法依赖于数据是对称分布的。如果数据呈现严重的“拖尾”现象(即大部分数据集中在一侧,少数极端值分布在另一侧),均值和标准差的代表性会大打折扣。
数据变换 log/Box-Cox 能够通过数学映射,将这种倾斜的数据“拉平”,使数据分布对称化。在 Lattice 中,我们不仅执行这些数学计算,还会自动展示变换前后数据在偏度(Skewness)和峰度(Kurtosis)上的变化,让你直观看到处理效果。
如何安全地进行变换
Lattice 始终遵循“永不修改原始数据”的决策原则。当你应用数据变换 log/Box-Cox 时,平台会创建一个新的派生数据集(derived dataset),保留原始数据以备溯源。
这种方式确保了你的每一次变换都是可审计的。你可以随时查看变换参数(如 Box-Cox 中的 lambda 值),并将其作为分析报告的一部分,提升结论的透明度。
处理极端值的边界条件
数学变换对数据结构非常敏感。例如,当数据中出现非正数时,log 和 Box-Cox 函数在数学上是无法定义的。为了防止分析中断,我们在检测到这类数据时会进行显式拦截。
用户可以通过平移参数进行调整。这种显式的操作流程确保了变换过程中的每一步都在你的掌控之下,避免了平台进行“后台静默计算”可能带来的分析偏差。
1 · Intent → method
An LLM picks data_transform from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
为什么我的数据在进行 log 变换时报错了?
log 变换要求输入数据必须大于 0。如果你的数据中包含 0 或负数,该方法会为了保护数据完整性而报错。你可以根据实际情况选择平移(shift)数据,使所有数值变为正数后再进行变换。
log 变换和 Box-Cox 变换应该选哪一个?
log 变换是一种固定的处理方式,适用于具有乘法效应的数据。而 Box-Cox 变换更为灵活,它通过自动计算最佳参数(lambda),可以找到最适合当前数据分布的变换形式,不仅包含 log 变换的逻辑,还能覆盖平方根等其他形式。
Tool 输入字段
Schema for data_transform not exported yet (run pnpm export:registry).