聚类

高斯混合聚类 (GMM) - Lattice 软聚类分析工具

当您需要为数据进行精细分组,且某些样本可能同时具备多个组别的特征时,高斯混合聚类 (GMM) 是理想选择。与简单的硬性分组不同,它不仅告诉您样本属于哪一组,还会给出属于各组的百分比概率,并自动学习不同组别数据的形态差异。

基于概率的灵活分组

传统的分组方法通常采取“一刀切”策略,将每个样本强行归入唯一类别。高斯混合聚类则通过概率模型,计算每个样本属于各潜在簇的概率。这种软聚类方式能够保留数据在边缘区域的模糊性,帮助您识别那些不明确的样本。

该方法假设数据由多个正态分布混合而成,通过学习每个簇的中心、形状和方向(协方差),能够适应更加复杂的实际数据分布。

自动评估模型优劣

确定分几类往往是一个难题。高斯混合聚类内置了 BIC(贝叶斯信息准则)和 AIC(赤池信息准则)评分机制。当您尝试不同的组别数量时,这些指标会自动评估模型拟合程度与复杂度之间的平衡,帮助您找到数据最自然的分类形态,避免主观判断的偏差。

适应多样的空间结构

通过调整协方差类型,该方法可以灵活处理各种数据形态:从严格的球状分布,到各向异性的椭圆分布,甚至是共享相同分布方向的簇。这种对空间结构学习能力的提升,使得它在处理金融行为分析、生物特征聚类等复杂业务场景时表现出色。

对于高维数据,您可以通过选择对角协方差来降低模型复杂度,或者使用完整协方差以获得最高的模型灵活性。

1 · Intent → method

An LLM picks cluster_gmm from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 为什么高斯混合聚类比 K-means 更好?

    K-means 只能处理球状分布并强制进行“硬”划分,而高斯混合聚类能够捕捉长条或椭圆形的分布结构,并以概率形式反馈每个样本属于不同簇的可能性,在处理复杂数据时更加灵活。

  • 如何理解模型输出的软概率?

    软概率描述了样本属于各个簇的置信度。如果一个样本的概率分布接近 0.5 和 0.5,说明该样本处于两个组别的边界,这种信息对于识别模糊样本或处理重叠数据非常有价值。

Tool 输入字段

Schema for cluster_gmm not exported yet (run pnpm export:registry).