聚类

K-means 聚类 · Lattice 自动分组工具

当你拥有一组数值指标,并希望按照数据特征的相似性将样本自动分成若干组时,请使用 K-means 聚类。无论是在识别相似的用户行为模式,还是分类工艺生产中的设备状态,此方法都能通过计算样本间的几何距离,快速将数据归类并提供每组的统计特征。

聚类逻辑与数据处理

K-means 聚类通过计算样本在多维空间中的欧几里得距离,将数据划分为指定数量的群组。在 Lattice 中,我们默认会对输入数据进行标准化处理。这是因为不同列的数值量纲(例如“年龄”和“收入”)差异巨大,标准化能确保每项特征在聚类时享有平等的权重,从而避免单一特征主导聚类结果。

在计算过程中,系统会自动剔除包含缺失值的行,并跳过常数列,以确保计算过程顺利。最终输出的中心点(centroids)会自动反标准化,转换回你熟悉的原始单位,以便你直接解读每组的代表性数据。

如何解读聚类结果

运行完成后,你将获得每个样本的标签编号,以及每一组的详细摘要信息。这些摘要包括每组的样本数量、各维度的平均值与标准差。通过对比不同组的均值,你可以直观地识别出各类群体的核心特征差异。

例如,在用户细分场景下,如果某一组的中心点在“消费频次”维度均值较高,而在“折扣敏感度”维度均值较低,你就能明确该组属于高频高价值用户。这些统计信息能够支撑你后续的业务判断。

聚类质量与验证

Lattice 会提供惯性(inertia)指标和轮廓系数(silhouette score)来评估聚类的紧凑程度。惯性值越小,代表组内成员越紧凑,聚类效果越好。轮廓系数则综合了组内距离和组间距离,是评估聚类质量的常用工具。

如果计算结果显示轮廓系数较低,通常意味着数据在当前特征维度下并没有明显的自然分群规律,或者所选的 K 值与数据分布不匹配。此时,你可以尝试更换特征列或重新评估 K 值的设置。

1 · Intent → method

An LLM picks cluster_kmeans from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 为什么 K-means 聚类需要我指定组数 K?

    K-means 是一种通过预设组数来分配样本的方法,它会寻找距离中心最近的样本归为一类。在 Lattice 中,你需要根据业务背景指定 K 值。如果事先不知道分几组,可以先通过尝试不同的 K 值观察聚类效果。

  • 输出结果中的 'silhouette 系数' 是什么意思?

    这是衡量聚类效果的指标,范围在 -1 到 1 之间。值越大,说明样本被分配得越合理,组内成员更相似,组与组之间界限更清晰。如果结果显示数值小于 0.25,说明数据结构较弱,建议你检查数据是否存在异常或考虑调整聚类参数。

Tool 输入字段

Schema for cluster_kmeans not exported yet (run pnpm export:registry).