在 Lattice 中，我们通过三步法简化这一过程：首先，LLM 根据您的业务描述选择匹配的聚类算法（如 K-means 或层次聚类）；接着，确定性的 Python 计算引擎对原始数据进行标准化，并执行底层的矩阵运算，精确计算出质心或合并路径；最后，LLM 将晦涩的轮廓系数、惯性值以及聚类统计摘要翻译为直观的业务洞察。这一架构确保了结果不仅具备严谨的数学可解释性，还能直接转化为您业务决策的参考依据，省去了手动处理数据清洗和标准化比例的繁琐步骤。

何时选择这一家族

您想将用户或样本按行为特征自动划分为几个相似的组群。
您需要识别数据集中异常偏离的模式，但不确定具体的判定边界。
您希望查看样本是如何逐级合并的，以确定数据中自然的嵌套分层结构。
您拥有多项数值型指标，但不知道哪些样本在这些指标上表现相近。

聚类究竟在做什么？

聚类本质上是一种无监督的学习过程。它不依赖于预设的标签，而是通过衡量数据点之间的几何距离，将特征相似的观测值归为同一簇。无论您关注的是用户的消费行为习惯，还是生产线上的传感器读数，该方法都会在多维空间中寻找那些「靠得近」的样本。

Lattice 会自动处理数值标准化，确保量纲不统一的指标（如身高与体重）不会因为单位差异而扭曲计算结果。最终产出的摘要信息，包含了每组的均值、标准差及规模，帮助您从定量角度理解每一类别的典型特征。

如何区分不同的聚类策略？

最主要的区别在于您对“分群数量”的掌控方式。K-means 适合需要预先指定数量（K 值）的场景，它计算速度快且逻辑清晰，适合处理大规模数据。而层次聚类则通过构建树状结构展示样本的合并过程，它不需要预设分群数，允许您在分析过程中通过查看树状图来决定在哪个“高度”切断分支最为合理。

在选择时，如果您关注的是快速获得结构化的分组结果，优先考虑 K-means；如果您需要探究数据内部复杂的包含关系或层级演变，层次聚类会提供更细致的视角。

常见的操作误区

一个常见的误区是忽略轮廓系数（Silhouette Score）。这是一个衡量分群质量的指标，分数越低意味着分群重叠严重、边界不清。直接采用低分群结果往往会得出错误的业务结论，建议在看到预警时调整聚类数量或重新检查输入数据。

另一个误区是试图通过聚类进行预测。聚类仅是对现有数据的描述性分组，无法直接用于分类新数据。不要在没有明确标签的原始数据上直接套用分类模型的思维，应将结果视为探索性分析的起点，而非终点。

常见问题

我该如何判断分出 3 组还是 5 组更合理？: 除了业务判断外，建议查看 Lattice 报告中的轮廓系数（Silhouette Score）。该值在 -1 到 1 之间，通常高于 0.5 意味着聚类结构清晰。如果不同 K 值下的得分均低于 0.25，说明当前数据特征可能不支持强分群，建议您检查数据是否存在噪声或尝试更换列组合。
为什么我的数据列会被自动标准化？: 因为聚类算法高度依赖距离计算。如果您的特征列包含量纲迥异的数据（例如一个是 0-1 之间的比例，另一个是 0-10000 的产值），大数值的列会完全主导距离权重，导致聚类无效。Lattice 默认开启 z-score 标准化以消除这种偏差，确保每项指标对分群都有公平的贡献。

聚类

何时选择这一家族

聚类究竟在做什么？

如何区分不同的聚类策略？

常见的操作误区

常见问题

这一家族下的方法

DBSCAN 密度聚类 | 识别任意形状数据与自动发现噪声 | Lattice

高斯混合聚类 (GMM) - Lattice 软聚类分析工具

层次聚类：无需预设组数的自底向上数据分组方法 | Lattice

K-means 聚类 · Lattice 自动分组工具