为什么我的聚类结果全是噪声（label 为 -1）？

这通常是因为当前的邻域半径（eps）过小或最小样本数（min_samples）设置过高，导致数据点在给定的参数下无法形成有效的密集区域。建议适当增大 eps 或减小 min_samples 后重试。

DBSCAN 密度聚类和 K-means 有什么区别？

K-means 强制将数据分为指定的 k 类且偏好球状分布；而 DBSCAN 密度聚类不需要预设 k，它通过密度连接点，因此能够处理任意形状的群体，并能直接把离群的异常值标记为噪声。

当数据不再是简单的球状集合，或者你无法提前判断样本应当分为几类时，DBSCAN 密度聚类能根据点群的密集程度自动归组。它能够自动识别并剔除孤立的异常样本，特别适合分析工艺工况监控或具有复杂分布特征的数据集。

DBSCAN 密度聚类通过考察样本点周围的紧密程度来决定归属。系统会寻找那些被足够多邻居包围的“核心点”，并将它们通过距离连接成组。这种方法不需要预先告诉计算机需要分多少类，它能根据数据的实际分布形态自动演化出结果。

与需要预设中心点的算法不同，这种方法将几何形态的自由度还给了数据本身。无论是细长的条带还是嵌套的圆环，只要满足密度要求，都能被准确归纳到同一个集群中。

在实际生产环境中，数据往往伴随着离群点或测量噪声。DBSCAN 密度聚类在聚类的同时，会自动将那些位于低密度区域、无法与核心群相连的点标注为噪声（label 为 -1）。

这种机制在工艺监控中非常有用。通过剔除不属于任何稳定工况的离群点，你可以清晰地观察到核心工艺过程的运行模式，并将这些孤立的噪声直接识别为潜在的设备报警或异常事件。

该方法依赖于两个核心参数：邻域半径（eps）和最小样本数（min_samples）。eps 定义了“多近算作邻居”，而 min_samples 定义了“多密才算一类”。

在 Lattice 中，我们默认会对数据进行标准化处理，以确保不同量纲的特征不会影响距离判断。如果发现聚出的簇数过多或过少，只需微调这两个参数即可重新观察密度结构的变化。

在运行完成后，平台会自动计算轮廓系数，用以衡量不同群组之间的区分度。如果系数过低，说明数据分布的界限模糊，此时建议重新检查所选特征的有效性。

如果数据量超过 5000 行，算法的计算耗时会增加。对于超大规模数据集，我们建议优先对核心特征进行降维或筛选，以保持分析的响应速度。

1 · Intent → method

An LLM picks cluster_dbscan from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

为什么我的聚类结果全是噪声（label 为 -1）？
这通常是因为当前的邻域半径（eps）过小或最小样本数（min_samples）设置过高，导致数据点在给定的参数下无法形成有效的密集区域。建议适当增大 eps 或减小 min_samples 后重试。
DBSCAN 密度聚类和 K-means 有什么区别？
K-means 强制将数据分为指定的 k 类且偏好球状分布；而 DBSCAN 密度聚类不需要预设 k，它通过密度连接点，因此能够处理任意形状的群体，并能直接把离群的异常值标记为噪声。

Schema for cluster_dbscan not exported yet (run pnpm export:registry).