小提琴图是了解数据「长相」的利器。它结合了密度曲线与箱线图,让你能一眼看出数据的分布范围、中心位置以及是否对称。当你需要快速判断多组数据是否存在显著差异,或者想查看数据是否存在双峰等异常形态时,使用此工具最为直观有效。
直观理解数据形态
小提琴图的核心在于其轮廓,这是通过核密度估计(KDE)计算得出的。它展示了数据在不同取值范围内的概率密度,能够清晰地反映出数据是集中在均值附近,还是呈现出长尾或多峰的特殊结构。
这种可视化方式特别适合作为分析的第一步。在进行任何复杂的建模或推断检验之前,通过此工具观察数据形态,可以帮助你决定是否需要进行数据预处理或转换。
集成 Tukey 五数概括
除了外部的轮廓,Lattice 的小提琴图还在内部嵌入了 Tukey 五数概括(箱线图结构)。这包含最小值、下四分位数、中位数、上四分位数和最大值。这种设计让你既能看到数据的整体分布形态,又能精准捕捉到关键的统计位置信息。
工具还会自动处理超出 1.5 倍四分位距(IQR)范围的离群点,帮助你快速判断数据中是否存在异常观测值,从而决定后续的分析方向。
高效的分组对比
当你需要比较不同类别的表现(例如 A/B 测试中两组用户的行为分布)时,将多个小提琴图并排展示是非常高效的选择。你可以一眼辨别出不同组别之间的中心位移、散布范围差异以及分布形态的相似性。
这种并排对比方式在探索性数据分析阶段非常有用,能够迅速揭示各组别之间可能存在的系统性偏差。
Lattice 平台的确定性保障
在 Lattice 中使用小提琴图,所有的计算过程都是确定性的。系统会根据你的设置回显实际使用的带宽,并确保在处理缺失值时保持逻辑的一致性。无论数据量大小,工具都会严格根据输入生成对应的视觉反馈,绝不改动原始数据。
此外,平台针对单值方差为 0 或样本量过小的情况提供了内置的质量检查警告,确保你在处理数据时的每一步判断都基于稳健的统计事实。
1 · Intent → method
An LLM picks plot_violin from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
小提琴图比普通箱线图好在哪里?
普通的箱线图只能展示统计学上的五数概括(如中位数和四分位数),而小提琴图增加了密度曲线,能展示数据在分布范围内的具体形态,例如数据是否呈现双峰或者在某些区间特别密集,这些细节在箱线图中是无法体现的。
如果我的数据量很少,还能使用小提琴图吗?
小提琴图依赖密度估计来绘制轮廓,当样本量较少时,轮廓可能会显得不够平滑。Lattice 平台在样本量不足时会发出提示,建议在数据量较小时优先参考箱线图部分,以保证分析结果的准确性。
Tool 输入字段
Schema for plot_violin not exported yet (run pnpm export:registry).