为什么高斯混合聚类比 K-means 更好？

K-means 只能处理球状分布并强制进行“硬”划分，而高斯混合聚类能够捕捉长条或椭圆形的分布结构，并以概率形式反馈每个样本属于不同簇的可能性，在处理复杂数据时更加灵活。

如何理解模型输出的软概率？

软概率描述了样本属于各个簇的置信度。如果一个样本的概率分布接近 0.5 和 0.5，说明该样本处于两个组别的边界，这种信息对于识别模糊样本或处理重叠数据非常有价值。

当您需要为数据进行精细分组，且某些样本可能同时具备多个组别的特征时，高斯混合聚类 (GMM) 是理想选择。与简单的硬性分组不同，它不仅告诉您样本属于哪一组，还会给出属于各组的百分比概率，并自动学习不同组别数据的形态差异。

传统的分组方法通常采取“一刀切”策略，将每个样本强行归入唯一类别。高斯混合聚类则通过概率模型，计算每个样本属于各潜在簇的概率。这种软聚类方式能够保留数据在边缘区域的模糊性，帮助您识别那些不明确的样本。

该方法假设数据由多个正态分布混合而成，通过学习每个簇的中心、形状和方向（协方差），能够适应更加复杂的实际数据分布。

确定分几类往往是一个难题。高斯混合聚类内置了 BIC（贝叶斯信息准则）和 AIC（赤池信息准则）评分机制。当您尝试不同的组别数量时，这些指标会自动评估模型拟合程度与复杂度之间的平衡，帮助您找到数据最自然的分类形态，避免主观判断的偏差。

通过调整协方差类型，该方法可以灵活处理各种数据形态：从严格的球状分布，到各向异性的椭圆分布，甚至是共享相同分布方向的簇。这种对空间结构学习能力的提升，使得它在处理金融行为分析、生物特征聚类等复杂业务场景时表现出色。

对于高维数据，您可以通过选择对角协方差来降低模型复杂度，或者使用完整协方差以获得最高的模型灵活性。

1 · Intent → method

An LLM picks cluster_gmm from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

为什么高斯混合聚类比 K-means 更好？
K-means 只能处理球状分布并强制进行“硬”划分，而高斯混合聚类能够捕捉长条或椭圆形的分布结构，并以概率形式反馈每个样本属于不同簇的可能性，在处理复杂数据时更加灵活。
如何理解模型输出的软概率？
软概率描述了样本属于各个簇的置信度。如果一个样本的概率分布接近 0.5 和 0.5，说明该样本处于两个组别的边界，这种信息对于识别模糊样本或处理重叠数据非常有价值。

Schema for cluster_gmm not exported yet (run pnpm export:registry).