当数据不再是简单的球状集合,或者你无法提前判断样本应当分为几类时,DBSCAN 密度聚类能根据点群的密集程度自动归组。它能够自动识别并剔除孤立的异常样本,特别适合分析工艺工况监控或具有复杂分布特征的数据集。
理解基于密度的分组逻辑
DBSCAN 密度聚类通过考察样本点周围的紧密程度来决定归属。系统会寻找那些被足够多邻居包围的“核心点”,并将它们通过距离连接成组。这种方法不需要预先告诉计算机需要分多少类,它能根据数据的实际分布形态自动演化出结果。
与需要预设中心点的算法不同,这种方法将几何形态的自由度还给了数据本身。无论是细长的条带还是嵌套的圆环,只要满足密度要求,都能被准确归纳到同一个集群中。
如何处理噪声与异常点
在实际生产环境中,数据往往伴随着离群点或测量噪声。DBSCAN 密度聚类在聚类的同时,会自动将那些位于低密度区域、无法与核心群相连的点标注为噪声(label 为 -1)。
这种机制在工艺监控中非常有用。通过剔除不属于任何稳定工况的离群点,你可以清晰地观察到核心工艺过程的运行模式,并将这些孤立的噪声直接识别为潜在的设备报警或异常事件。
参数选择的直觉与权衡
该方法依赖于两个核心参数:邻域半径(eps)和最小样本数(min_samples)。eps 定义了“多近算作邻居”,而 min_samples 定义了“多密才算一类”。
在 Lattice 中,我们默认会对数据进行标准化处理,以确保不同量纲的特征不会影响距离判断。如果发现聚出的簇数过多或过少,只需微调这两个参数即可重新观察密度结构的变化。
数据结构的评估
在运行完成后,平台会自动计算轮廓系数,用以衡量不同群组之间的区分度。如果系数过低,说明数据分布的界限模糊,此时建议重新检查所选特征的有效性。
如果数据量超过 5000 行,算法的计算耗时会增加。对于超大规模数据集,我们建议优先对核心特征进行降维或筛选,以保持分析的响应速度。
1 · Intent → method
An LLM picks cluster_dbscan from a fixed catalog.
2 · Method → numbers
Deterministic Python engine runs the math. Same input → same output.
3 · Numbers → plain language
A second LLM translates the result into your domain’s vocabulary.
为什么我的聚类结果全是噪声(label 为 -1)?
这通常是因为当前的邻域半径(eps)过小或最小样本数(min_samples)设置过高,导致数据点在给定的参数下无法形成有效的密集区域。建议适当增大 eps 或减小 min_samples 后重试。
DBSCAN 密度聚类和 K-means 有什么区别?
K-means 强制将数据分为指定的 k 类且偏好球状分布;而 DBSCAN 密度聚类不需要预设 k,它通过密度连接点,因此能够处理任意形状的群体,并能直接把离群的异常值标记为噪声。
Tool 输入字段
Schema for cluster_dbscan not exported yet (run pnpm export:registry).