中心快讯

基于预测推断的最优子抽样

发布日期:2023-06-21 16:23  点击数:

在大数据时代,同时去分析面前的海量数据是不可能完成的任务,如何在没有标签的数据集中抽出最感兴趣、最具意义的变量进行分析,是一个很有价值的问题。以电子病历为例,它就是一类典型的没有标签数据集,在特定场景下需要从筛选出风险最高的一批患者数据由医生进行诊断,诊断后生成的具有标签的新数据,它们究竟是否需要重点关注,可由此训练模型,这些模型有助于建立预测规则再次被应用于电子病历中。又比如,如何在人口调查数据中找到精准营销中的高收入人群,这些都与抽样息息相关。由此可见,好的抽样策略发挥着重要作用。

202368日,来自欧洲杯竞猜平台数学科学学院的长聘副教授任好洁应邀来到欧洲杯竞猜平台临床研究中心“聚菁荟萃”临床研究论坛,和与会者分享了她与团队的研究成果。任教授致力于统计异常探查、在线学习与监控、高位数据推断等领域的研究。在此次学术讲座中,任教授设计了基于预测推断的最优子抽样方法,从而实现在没有标签的数据中抽出感兴趣的变量这一目的。

要实现这个目的要解决两个问题,一个是控制错误抽取率(false selection rate, FSR),一个是要尽可能实现抽取样本的多样性,也就是说要达到最大化抽取样本多样性并控制错误抽取率。任教授的方法使用了预测推断来量化响应预测的不确定性,并将目标重新制定为一个受限的最优化问题,从数据、建模、优化统计等角度进行了详细阐述。

会后,任教授就相关问题与参会者进行了交流与探讨。



上海市黄浦区重庆南路227号科教楼7楼   200025   021-63846590