方法

数据可视化

数据可视化工具集专为数据分析师、科研人员及运营工程师设计。无论您是在对比复杂过程中的变量相关性、追踪随时间变化的业务指标,还是需要快速拆解不同维度下的分布特征,该工具集都能通过确定性绘图协议,将枯燥的数值转化为即时的决策依据。

本工具集通过标准化协议实现数据到图形的确定性映射。我们的三阶段架构确保了绘图过程的严谨性:首先,LLM 根据您的自然语言指令识别分析意图,确定最合适的图表类型(如折线图、散点图、直方图等);接着,Lattice 的确定性 Python 引擎处理数据,处理 NaN 值并计算统计量(如置信区间或分箱),完全遵循特定于工具的数学逻辑;最后,LLM 将结果数据结构化地返回给前端,确保图表样式一致且准确传达洞察。这种拆分避免了传统分析中的黑箱效应,让您明确知道图表中的每一处点、线或统计边界是如何由数据直接推导而来的,而非简单的自动匹配。

何时选择这一家族

数据可视化的核心机制

Lattice 的数据可视化不仅仅是画图,它是一套基于数据契约的计算流程。当您发起绘图请求时,系统会自动执行数据清洗和类型校验,确保绘图所用的数据具备物理意义。例如,在绘制折线图时,如果存在缺失的 X 或 Y 值,系统会执行严格的 listwise 丢弃,并在结果中明确告知行数缺失情况。

我们的绘图工具支持 inline-facet 机制,允许您在单个维度下快速拆分图表。无论是进行每组独立的聚合分析,还是查看特定维度的 top-N 分布,系统均采用每面板独立计算的逻辑,确保统计边界和排序不会被全局统计所掩盖。

如何选择适合的图表逻辑

虽然可视化工具很多,但选择的核心在于您希望表达的“意图”。若您关注“趋势”或“走势”,`plot_line` 是最高优先级,因为它默认对时间序列进行排序,并支持以置信区间带的方式展示不确定性。若您侧重“关联性”,`plot_scatter` 则提供原始点分布,不做额外的数学聚类。

不同于追求花哨效果的绘图库,本工具集强调“决策驱动”。例如,在 `plot_bar` 中,当开启 facet 分面时,系统的聚合、排序和错误棒计算都是“per-panel”的。这意味着您可以一眼看出不同部门、不同地区或不同批次下数据的真实表现,而非被整体平均值所迷惑。

常见的问题与误区

初学者常尝试将不具备统计意义的类别列作为连续变量绘图,或在包含大量缺失值的列上直接进行绘图。请记住,所有工具均在绘图前强制要求数据类型对齐。如果数据类型不合法,系统会直接报错,而不是进行可能导致误导的自动补全或插值。

另一个常见误区是忽略了数据分面时的截断规则。在处理类别极多的数据时,系统默认保留 top-12 并丢弃其余数据,这并非为了美观,而是为了防止图表信息过载和渲染崩溃。建议您在分析前对类别数据进行必要的聚合或筛选。

常见问题

为什么我的折线图中某些位置的置信区间消失了?
置信区间基于样本 t 分布计算。如果特定 x 位置的样本数少于 2 个,或者样本的标准误为 0,系统无法计算有效的置信区间,此时该位置将返回 NaN,前端将自动跳过连接以真实反映数据稀疏性。
开启分面(facet_by)后,图表里的数据排序变了,这是为什么?
当您使用 `facet_by` 时,`plot_bar` 等工具会切换到 per-panel 独立计算模式。这意味着排序逻辑(如按数值降序)是在每一个独立的面板内部执行的。这样能确保您看到的 top-N 是在该细分维度下的真实排名,而非全局排序。
如果我的数据里有 NaN,Lattice 会怎么处理?
我们遵循严格的“不插补”原则。对于绘图工具,缺失值策略通常为 listwise dropna(按行丢弃)。如果是分面列含有 NaN,该行会被直接舍弃并记录在 `n_rows_dropped_facet_nan` 中,以确保图形展示的数据集始终是完整且合规的。

这一家族下的方法