受试者参加一项健康训练是否可以增加他的健康知识,从而有助于其日后摄入更多蔬菜?
一个人吸烟是否会影响DNA甲基化表达,从而导致其肺功能发生改变?
受教育程度较低的人是否因其学历而影响其工作待遇,从而导致其精神状态不佳?
回顾上述问题可以发现,我们通常都会对问题中的因与果是否发生必然关系而产生浓厚的兴趣。这些问题所呈现的共性即,当我们拥有一个暴露变量X,如是否吸烟,一个中介变量M,比如吸烟多少影响DNA甲基化表达,同时又拥有一个结局变量Y(亦称响应变量),如肺功能改变,那么问题就变成了暴露变量对结局变量的作用机制,是否通过影响中介变量最终影响结局变量,探究其中的机制和路径,这才是我们真正想要研究的问题。
2023年3月30日,来自北京师范大学统计学院的郭旭教授云端做客欧洲杯竞猜平台临床研究中心“聚菁荟萃”临床研究精品论坛并做了主题为“Large-scale Mediation Effect Signal Detection”的学术报告。郭教授长期深耕于回归分析中复杂假设检验的理论方法及应用研究,近年来一直聚焦于对高维数据发展适当有效的检验方法,部分成果已先后发表于JRSSB, JASA, Biometrika和JOE。他的讲座为与会者提供了中介效应分析的另一个新视角。
中介效应分析被长期应用于多个领域,如教育学、心理学、社会学,其目的是检验科学家假想的机制是否正确。1986年,Baron和Kenny提出中介效应分析框架在社会心里和消费者行为等诸多社科研究中产生极其深远的影响,该论文至今已被引11万逾次,成为了该领域内的标杆。最近几十年,中介模型在统计领域也受到了瞩目,由此也应运而生了新的挑战。在遗传学中,中介变量的维数很高。一篇于2016年发表在Nature Communication的论文关注儿童创伤和成年后应激反应之间的关系,涉及了380000个潜在中介变量,而样本量仅85个,面对这种情形,传统的分析方法束手无策,必须提出新方法。无论是构造P值近似还是像林希虹和刘中华老师给出的解决办法,也就是在每个子假设存在的概率给出估计从而给出复合的P值,现实却是,要估计每个子假设的P值属实不易。
而郭旭教授和其团队则提出了一种新的方法:MISA(Mediation Identification by Splitting and Aggregation)。MISA的核心是在不计算P值得情况下,仍然有效地去近似错误发现的个数,从而实现FDR(False Discovery Rate)的控制。MISA不仅可以有效绕开P值,并且计算效率很高,无论测试多少次或样本量大小如何,当总体对称且独立时,均能实现对FDR的精确控制,克服在中介效应识别中的复合问题。