利用单细胞染色质可及性测序技术(scATAC)可以帮助研究表观遗传景观的细胞异质性,这项技术已成功应用于获得细胞类型,揭示细胞异质性的调控机制,绘制与疾病相关的调控元件。然而,由于scATAC数据高纬性及稀疏性的特点,数据分析依然面临着挑战。既往已有的分析方法依赖于额外的工具,建立染色质开放区域与转录因子之间的联系,而袁瀚博士及其同事开发了scBasset——一种新的基于DNA序列的卷积神经网络模型,来对scATAC数据进行建模。
2023年3月16日,来自Calico的计算生物学家袁瀚博士云端做客欧洲杯竞猜平台临床研究中心“聚菁荟萃”临床研究精品论坛,和与会者分享了他和同事们的研究成果。袁瀚博士的研究方向是使用机器学习算法研究基因表达的生物学机制,致力于通过算法开发更好地了解细胞中基因调控的机制并利用这些算法工具解决与疾病及衰老相关的生物问题。
scBasset利用DNA序列信息,通过卷积层和全连接层预测输入序列在不同细胞类型中的可及性。袁瀚博士介绍道,将scBasset视作特征学习机器,使通过一系列卷积层学习,最终实现用于预测每个单细胞可及性的线性变换。基于该线性变换,可以帮助我们去判断每个细胞在多大程度上依赖DNA序列的调控因素。袁瀚博士通过对scATAC数据进行建模,向与会者展示了scBasset在多个下游数据分析任务中的优异表现,包括学习细胞之间的关系,对原始数据进行降噪,消除数据中的批次效应,以及预测转录因子活动等。
相较于既往的分析方法,袁瀚博士所提出的scBasset在基准测试任务上实现了更好的性能,同时也提供了一个更易于解释的模型,可以用于直接查询TF活动或识别监管序列。