为什么 K-means 聚类需要我指定组数 K？

K-means 是一种通过预设组数来分配样本的方法，它会寻找距离中心最近的样本归为一类。在 Lattice 中，你需要根据业务背景指定 K 值。如果事先不知道分几组，可以先通过尝试不同的 K 值观察聚类效果。

输出结果中的 'silhouette 系数' 是什么意思？

这是衡量聚类效果的指标，范围在 -1 到 1 之间。值越大，说明样本被分配得越合理，组内成员更相似，组与组之间界限更清晰。如果结果显示数值小于 0.25，说明数据结构较弱，建议你检查数据是否存在异常或考虑调整聚类参数。

当你拥有一组数值指标，并希望按照数据特征的相似性将样本自动分成若干组时，请使用 K-means 聚类。无论是在识别相似的用户行为模式，还是分类工艺生产中的设备状态，此方法都能通过计算样本间的几何距离，快速将数据归类并提供每组的统计特征。

K-means 聚类通过计算样本在多维空间中的欧几里得距离，将数据划分为指定数量的群组。在 Lattice 中，我们默认会对输入数据进行标准化处理。这是因为不同列的数值量纲（例如“年龄”和“收入”）差异巨大，标准化能确保每项特征在聚类时享有平等的权重，从而避免单一特征主导聚类结果。

在计算过程中，系统会自动剔除包含缺失值的行，并跳过常数列，以确保计算过程顺利。最终输出的中心点（centroids）会自动反标准化，转换回你熟悉的原始单位，以便你直接解读每组的代表性数据。

运行完成后，你将获得每个样本的标签编号，以及每一组的详细摘要信息。这些摘要包括每组的样本数量、各维度的平均值与标准差。通过对比不同组的均值，你可以直观地识别出各类群体的核心特征差异。

例如，在用户细分场景下，如果某一组的中心点在“消费频次”维度均值较高，而在“折扣敏感度”维度均值较低，你就能明确该组属于高频高价值用户。这些统计信息能够支撑你后续的业务判断。

Lattice 会提供惯性（inertia）指标和轮廓系数（silhouette score）来评估聚类的紧凑程度。惯性值越小，代表组内成员越紧凑，聚类效果越好。轮廓系数则综合了组内距离和组间距离，是评估聚类质量的常用工具。

如果计算结果显示轮廓系数较低，通常意味着数据在当前特征维度下并没有明显的自然分群规律，或者所选的 K 值与数据分布不匹配。此时，你可以尝试更换特征列或重新评估 K 值的设置。

1 · Intent → method

An LLM picks cluster_kmeans from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

为什么 K-means 聚类需要我指定组数 K？
K-means 是一种通过预设组数来分配样本的方法，它会寻找距离中心最近的样本归为一类。在 Lattice 中，你需要根据业务背景指定 K 值。如果事先不知道分几组，可以先通过尝试不同的 K 值观察聚类效果。
输出结果中的 'silhouette 系数' 是什么意思？
这是衡量聚类效果的指标，范围在 -1 到 1 之间。值越大，说明样本被分配得越合理，组内成员更相似，组与组之间界限更清晰。如果结果显示数值小于 0.25，说明数据结构较弱，建议你检查数据是否存在异常或考虑调整聚类参数。

Schema for cluster_kmeans not exported yet (run pnpm export:registry).