为什么层次聚类不需要像 K-means 那样预先输入组数？

层次聚类采用自底向上的合并方式，会生成一棵完整的合并树（合并矩阵）。你可以在分析完成后，通过查看这棵树的结构来决定在哪个距离点或组数位置进行切分，这样能更灵活地探索不同粒度下的数据分布。

如何判断层次聚类分出的结果好不好？

你可以关注输出的轮廓系数（silhouette score），该指标反映了簇的紧凑度和分离度。此外，观察合并树（dendrogram）的形状也很重要，如果合并过程中的距离变化呈现合理的阶梯状，通常说明该方法在当前数据下表现良好。

层次聚类是一种将相似数据点逐步合并的分析方法。当你希望探索数据内部结构，却不确定应该分成几类时，它能构建出一棵清晰的合并树。通过这棵树，你可以根据业务需求灵活选择切割位置，从而识别出数据中潜在的群体或模式。

不同于一次性将样本划入指定组别的算法，层次聚类通过“聚合”策略，逐一合并最相似的数据对。这种方式不仅能完成分组任务，还能完整保留样本间的距离演变过程。这对于需要理解数据“演变路径”或观察细微类群划分的场景非常有价值。

在 Lattice 中，该工具会自动处理标准化步骤，确保不同度量单位的列能在统一尺度下进行比较。你只需关注生成的合并矩阵，即可获得关于样本归组逻辑的直观证据。

层次聚类的核心优势在于其结果的“可切分性”。一旦计算完成，你可以指定想要的分组数量，或者通过设定距离阈值来动态切断合并路径。这意味着在面对业务调整时，你无需重新运行全部计算，只需根据合并树调整切分标准即可快速获得新的细分结论。

这种方式在处理复杂的数据表型分群或工艺模式识别时尤为有效，它允许你在“粗粒度概览”与“细粒度挖掘”之间随时切换。

层次聚类支持多种合并准则（如 Ward 最小方差法、单链接、全链接等）以及距离度量（欧几里得距离或曼哈顿距离）。Ward 法擅长发现形状均衡的簇，而曼哈顿距离则在处理含有序等级的数据时表现得更加稳健。

Lattice 会根据你选择的度量标准自动校验有效性，确保生成的合并树在逻辑上是严谨的。通过复用统一的 silhouette 指标，你可以随时评估当前配置下聚类结构的质量，避免误入数据噪声陷阱。

1 · Intent → method

An LLM picks cluster_hierarchical from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

为什么层次聚类不需要像 K-means 那样预先输入组数？
层次聚类采用自底向上的合并方式，会生成一棵完整的合并树（合并矩阵）。你可以在分析完成后，通过查看这棵树的结构来决定在哪个距离点或组数位置进行切分，这样能更灵活地探索不同粒度下的数据分布。
如何判断层次聚类分出的结果好不好？
你可以关注输出的轮廓系数（silhouette score），该指标反映了簇的紧凑度和分离度。此外，观察合并树（dendrogram）的形状也很重要，如果合并过程中的距离变化呈现合理的阶梯状，通常说明该方法在当前数据下表现良好。

Schema for cluster_hierarchical not exported yet (run pnpm export:registry).