聚类分析是一种无监督学习方法。在聚类中,数据点之间的相似性一般通过距离或相似度来衡量,而簇则是一群具有较小距离或较高相似度的数据点的集合。聚类的目标实则是将具有相近特征的数据点划分为簇,是对于数据特点的刻画。确定聚类数量对于聚类的成功应用至关重要。
2024年5月23日,来自浙江大学的研究员骆威应邀莅临欧洲杯竞猜平台临床研究中心并作题为“Determine the number of clusters by data augmentation”的讲座。骆威老师长期致力于充分降维的理论和应用以及因果推断,在本次讲座中,骆老师介绍了一种新的定阶方法——DAE (Data Augmentation Estimator)。该方法用独立生成的小聚类来增强数据,从而创造出“不稳定”,以此来证明聚类的不稳定性是如何随着聚类中假定的聚类数目而变化。这种不稳定模式提供了一种替代常用拟合优度的聚类真实数量的特征,通过将两个信息源进行适当结合,在一般条件下达到渐进一致性。相较于传统方法,该方法使用起来更加高效。