随着大数据的快速发展,数据的质量和模型精度评估成为大数据研究中的热点问题,且在科学的发展中占据核心地位。现有的大部分统计指标只评估模型单方面的精度,对数据或模型的整体全面评估缺少。Nature中最新研究表明传统的集合平均等方法在CMIP6模型的选取中存在巨大的不确定性,导致对气候变化结论的不合理(Hausfather et al.,2022)。因此,亟需发展一个新的评估系统。
2024年5月23日,来自欧洲杯竞猜平台的胡增运研究员应邀莅临欧洲杯竞猜平台临床研究中心并作题目为“大道至简、大行其道——ERC/CCHZ-DISO 大数据及模型评估、聚类与排名系统”的讲座。胡老师和他的团队所构建的这一大数据评估系统,正是解决上述问题的关键所在。
说起CCHZ-DISO大数据评估系统名称的由来,胡老师特别自豪,因为这是一个融合了集体智慧的名称,其中CCHZ来自主要贡献者姓氏首字母:C来自陈曦研究员,C来自陈德亮院士,H来自胡增运研究员,Z来自周启鸣教授。DISO是distance between indices of simulation and observation的首字母缩写,它还有一个朗朗上口的名字——迪搜,取自“启迪智慧,搜索灵感”。这与胡老师的科研理念不谋而合,由天马行空的思维自由追寻他山之石可以攻玉,最后开创已法己数的新天地。
CCHZ-DISO的构建,核心理论是欧式空间距离,计算统计指标的距离。其中统计指标种类和数目的选取完全根据研究者自身的研究需求决定。不同统计指标的权重提供相应的计算方案。CCHZ-DISO的构建体现大道至简的精髓,该系统可应用到涉及数据比较的任何学科;创建PTPLS大数据插值方法,为所有学科大数据时空插值提供新方法。以大健康领域为例,基于CCHZ-DISO,创建了三维传染病动力学理论和新的传染病预测预警模型;发展了基于交叉学科的“传染病预测预警建模与防控新技术”;拓展传染病研究方向,实现“One Health”角度多学科交叉研究。
胡增运老师的研究立足交叉学科,不但独树一帜地将“大道至简”融入SCI文章题目,大力弘扬了中国文化,并且他致力于将方法理论趋于简单,将统计指标进行计算及归一化,维数可从一维至无穷维,成功化解不同统计指标评估矛盾。