从24小时到7分钟,我院生物医学大数据中心将人类全基因组分析时间从以小时计缩短至以分钟计,刷新了基因分析的“中国速度”,具有跨时代的意义。这也意味着,该项研究成果直接加速了基因测序从科研到临床的进程,未来将有更多精准的基因数据辅助于医疗诊断及治疗。
基因分析和测序技术现已应用于生育健康、肿瘤个体化诊断和治疗、遗传病、传染病检测、疫苗研发等领域。生物信息也是“医学+信息”研究领域的主战场之一,四川大学华西医院在该研究方向也早有布局,率先启动“十万中国罕见病患者全基因组测序计划”项目。
完成如此庞大的队列研究需要面对各方面的挑战,其中一只不可避免的“拦路虎”就是——时间。按照传统技术30X人类全基因组数据分析24小时/例的速度计算,该项目投入100台计算机也需要30多年才能完成。
为此,2021年6月,华西医院联合华为、赛乐基因组建联合研发团队,开展多组学数据加速分析平台系统的开发,旨在打造坚实的科研基础底座。
面向大规模队列多组学数据分析应用场景,研发团队聚焦多组学数据分析“存、管、算”三个方向,开展联合研发工作。
(1)存:对各种组学的原始数据文件、分析过程中形成的中间文件、分析结果文件提供安全、高效的存储,开发多组学数据专项训练的存储自动分级技术,在数据分析过程中提供高I/O和低成本的存储方案,针对性优化分析过程中的数据流,以兼顾多组学分析中的性能和成本;
(2)管:面向存储系统的管理维护者,研发基于逻辑层的组学数据全生命周期的存储管理系统;
(3)算:基于GPU异构并行加速技术,聚焦瓶颈环节序列比对上,将原来在CPU上运行的bwa、STAR和GATK(The Genome Analysis Toolkit)等分析软件重构迁移到GPU上,从而充分利用GPU运算高并发的特征,以满足高效、低成本完成组学分析的需求。
据该项目负责人、华西生物医学大数据中心于浩澎副研究员介绍,之所以能实现时间上质的突破,根本在于打破计算算力和储存性能的瓶颈。他将其形象地比喻为吃得快的“大嘴巴”和装得下的“大肚子”:“大嘴巴”实现了大文件的直通读取和小文件的聚合读取,数据读取的效率更高,“大肚子“可以对数据分析的各个作业流程进行融合调度的优化,I/O流更加顺畅,从而实现了“吃得更多、消化更快”。
研发团队在全基因组数据分析加速上,以GATK流程为基础,经过不断的流程拆分与重组改写、不断的分布式存储软硬优化打磨,最终完成了速度的飞跃,实现了30X人类全基因组测序胚系变异分析时间从24小时到7分钟的极限压缩,同时保证了分析结果的准确性:和GATK结果高度一致。
这一突破性的研发成果于去年发布,引起了央视新闻的关注,并于近期进行了专题报道。于浩澎副研究员在采访中展示了华西医院在生物信息领域的基础投入和研发实力,以及在基因分析领域追求极致的探索。
华西医院生物医学大数据中心本着“开放、创新、共享”的宗旨,依托四川大学超前部署学科“医学大数据“和四川大学“医学+信息“中心持续推进医工交叉融合研究创新,与华为、赛乐的基因加速合作项目与研发成果应用是一个成功案例。基于大数据与人工智能技术,四川大学华西医院深度推进医工融合、联合创新,力争构建覆盖全生命周期的健康服务体系。