新的计算机程序“学习”识别导致疾病的马赛克突变(图)

基因突变会导致数百种无法治愈的疾病。其中,一小部分细胞中的DNA突变被称为马赛克突变(Mosaic Mutations),因为它们存在于很小比例的细胞中,所以非常难以检测到。

目前的DNA突变软件检测器在扫描人类基因组的30亿个碱基时,不太适合识别隐藏在正常DNA序列中的马赛克突变。通常,医学遗传学家必须用肉眼检查DNA序列,以试图识别或确认马赛克突变—这是一项耗时的工作,且充满了识别错误的可能性。

加利福尼亚大学圣地亚哥医学院和拉迪儿童基因组医学研究所的研究人员在2023年1月2日出版的《自然-生物技术》杂志上发表了一篇论文,其中描述了一种利用计算机使用人工智能发现马赛克突变的方法 – “ deep learning(深度了解)”。

deep learning,有时被称为人工神经网络,是一种机器学习技术,它教计算机做人类天生的事情:“从本身出发,从大量信息中去了解发现。与传统的统计模型相比,深度学习模型使用人工神经网络来处理可视化表示的数据。这些模型以类似于人类视觉处理的方式运行,具有更高的准确性和对细节的关注,导致了计算能力的重大进步,包括突变检测。

“一个未解决的疾病的例子如局灶性癫痫,” 加州大学圣地亚哥医学院神经科学教授,也是拉迪儿童基因组医学研究所神经科学研究主任,高级研究员Joseph Gleeson说。

“癫痫影响4%的人群,约四分之一的局灶性癫痫发作对常用药物无效。这些患者通常需要手术切除大脑短路的局灶部分以阻止癫痫发作。在这些患者中,大脑内的马赛克突变可能会导致癫痫发作。”

“我们有很多癫痫患者无法找到病因,但一旦我们将我们的名为“深度马赛克 ‘Deep Mosaic’” 的方法应用于基因组数据,突变就变得明显了。这使得我们能够提高某些形式癫痫的DNA测序的敏感性,并导致了一些发现,为治疗脑疾病指明了新的方法。”

Gleeson表示,准确检测马赛克突变是医学研究开发多种疾病治疗方法的第一步。

Gleeson实验室的博士后学者、第一作者兼通讯作者Xiaoxu Yang博士表示,Deep Mosaic接受了全基因组近20万个模拟和生物变体的培训,直到“最终,我们对其从从未遇到过的数据中检测变体的能力感到满意。”

为了训练计算机,作者们提供了值得信赖的马赛克突变以及许多正常的DNA序列的例子,并教计算机分辨差异。通过使用越来越复杂的数据集反复训练和再训练,并在十几个模型之间进行选择,计算机最终能够比人眼和现有方法更好地识别马赛克突变。DeepMosaic也在其从未见过的几个独立的大规模测序数据集上进行了测试,表现优于先前的方法。

“Deep Mosaic在检测基因组和外显子序列中的嵌合体方面超越了传统工具,” 第一作者之一、前加州大学圣地亚哥医学院本科生研究助理、现为诺华公司研究数据科学家的Xin Xu说道。“深度学习模型提取的突出视觉特征与专家在手动检查变体时所关注的非常相似。”

研究人员表示,这不是一个单一的计算机程序,而是一个开源平台,可以让其他研究人员训练自己的神经网络,使用类似的基于图像的设置实现更具针对性的突变检测。

本研究论文的共同作者还包括:加大圣地亚哥分校和拉迪儿童基因组医学研究所的Martin W.Breuss、Danny Antaki、Laurel L.Ball、Changuk Chung、Jiawei Shen、Chen Li、Renee D.George;Mayo诊所的Yifan Wang、加州大学圣地亚哥分校的Taejeong Bae、Alexei Abyzov、Yuhe Cheng、Ludmil B.Alexandrov和Jonathan L.Sebat;北京大学Liping Wei;和 NIMH Brain Somatic Mosaicism Network。

该项研究资金部分来自美国国立卫生研究院、圣地亚哥超级计算机中心和加州大学圣地亚哥基因组医学研究所。

题图是由人工智能根据3D艺术的要求使用自然语言解释“检测基因组突变的人工智能”生成技术。(制图:加大圣地亚哥分校/Joseph Gleeson)

图文来源:加大圣地亚哥分校新闻部

(美国华文网 圣地亚哥华文网编发)