浙江突破AI诊断技术:疑似病例基因分析缩至半小时
2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台,这一平台由浙江省疾控中心联合达摩院和杰毅生物联合研发。
借助阿里达摩院研发的AI算法,原来数小时的疑似病例基因分析缩短至半小时,加上杰毅生物技术的新型检测设备,大幅缩短疑似患者确诊时间。
达摩院介绍,这一平台还能有效防止病毒变异产生的漏检,并精准检测出可能存在的病毒变异情况,为后续疫苗与药物研发提供支撑。
在抗击新型冠状病毒紧要关头,这样的AI突破,对于有效提升疑似病例确诊效率,及时阻断病毒的传播,必然会有极大助益。
那么,这到底是一个什么样的突破?这一突破又意味着什么?
我们从“疑似病例”这一关键词开始说起。
还有19544例疑似病例尚未得到确诊
最新数据,截至2月1日24时,国家卫生健康委收到31个省(自治区、直辖市)和新疆生产建设兵团累计报告确诊病例14380例,疑似病例有19544例。
快速、精确诊断武汉新型冠状病毒(2019-nCoV),对于疫情传播控制来说,显得尤其重要。
目前,全国大多数医院普遍采用核酸检测来确诊患者是否患有新型冠状病毒肺炎。
虽然背后的方法已经相对成熟完善,但仍旧需要很长的时间。
果壳此前发布的文章对整个过程分析之后称:从病人样本送到实验室即刻开始测试到出检测报告差不多也需要8个小时。
加上新冠状病毒传染性较强,开展核酸检测对于实验室、设备、人员也都有相应要求。
因此,新型冠状病毒核酸检测一开始只能在湖北省疾控中心进行,而且核酸检测试剂盒生产较少,就出现了疑似患者确诊困难,得不到及时救治的状况。
虽然现在能够进行新冠状病毒核酸检测的医院和机构增多,而且核酸检测试剂盒产量逐步跟上,疑似患者确诊困难状况得到缓解。
但仍旧是依靠人肉来推动,效率并没有得到提高,所以依旧有大量疑似患者存在。
而且,当前采用的核酸检测方法, 也有不足之处。
根据各个机构公布的数据,新型冠状病毒全基因组序列全长29847bp,是基因组序列最长的病毒之一。
达摩院算法专家顾斐博士介绍称,核酸检测方法只能检测到病毒基因的局部。
“由于病毒存在变异的可能性,对于整个基因序列来说,这种检测方法犹如盲人摸象。一旦病毒发生变异,就可能出现漏检的情况,”他说。
因此,在严峻的抗疫形式面前,仍旧需要一种效率更高的病毒检测方法。
浙江省疾控中心上线的全新检测平台,不仅使用了更先进的检测仪器,还有达摩院的算法发挥作用,而且带来了切实的效果。
AI如何大幅度提高检测效率?
浙江省的自动化全基因组检测分析平台采用的是不同于核酸检测方法的全基因组检测技术,是对疑似病例的病毒样本进行全基因组序列分析比对。
达摩院介绍称,这属于高通量测序,可以一次对几十万到几百万条DNA分子进行序列测定,使得对一个物种的转录组和基因组进行细致全貌的分析成为可能。
应用在新型冠状病毒中,可以有效防止病毒变异产生的漏检。虽然能力很强,但它也有缺陷。最直接的不足就是其前处理和数据分析都非常费时费力。
但在AI算法的加持下,这些问题也都得到了克服。
根据官方信息,这一平台主要由浙江省疾控中心、阿里巴巴达摩院、杰毅生物共同研发。杰毅生物开发了全自动高通量测序建库仪,把整体常规人工需要12小时的工作缩短到2个小时。
每次测序过程产生的海量数据,则交由达摩院的算法进行分析。
△新型冠状病毒结构
顾斐介绍称,在序列比对过程中,他们对算法增加了分布式设计,病毒基因分析的速度由数小时缩短到半小时,从而大幅提高疑似病例的确诊速度。
在病毒的拼接阶段,他们也采用了分布式设计的de Bruijn图算法,将病毒拼接的速度由30分钟-1小时缩短到15-30分钟。
不仅只有速度的提升,还有质量的提高。达摩院表示,这能够帮医护人员检测到病毒全貌,就算变异的病毒也能精准检测,大幅提升确诊效率。
怎么评价这一平台?目前,这个平台已经上线,浙江省疾控中心也给出了评论。
“这个平台基于阿里云的强大算力与达摩院新算法可以为病毒的解析提供支撑,”其基因测序负责人孙逸博士说:“基于这个平台,未来还可以在短时间内将检测范围覆盖整个确诊病例,也为后续疫苗与药物研发打下了坚实基础。”
据介绍,平台将会在全省应用。达摩院也说,他们也正在努力与合作伙伴共同将这套系统推广至全国。
阿里达摩院,用算法抗疫
疫情凶猛,科技公司如何能够贡献一份力量?达摩院的做法可以作为一个参考:让自身技术能力在抗疫第一线发挥作用。
达摩院介绍说,疫情发生之后,他们就组建了十余人团队,针对新冠病毒基因的特征进行了分析,决定采用分布式设计的分析算法,并基于蛋白质数据库(PDB)等公共数据集的数据进行算法的优化训练。
并深入到一线,与浙江省疾控中心、杰毅生物共同打造自动化全基因组检测分析平台,于是才有了病毒基因分析速度由数小时缩短到半小时的直接产出。
△顾斐在疾控中心基因检测分析现场
除此之外,达摩院的并没有就此停下脚步。
顾斐说,在病毒序列拼接完成后,通过设BiLSTM+DNN的方式训练模型还可以在还可以15-30分钟内预测病毒蛋白二级结构。
而且, 达摩院还在研究基于序列的蛋白质三维结构预测模型以及药物筛选模型,为药物研发贡献技术能力。
所以,虽然疫情突至,谁也没能预料。
但现在,技术的力量正在成为抗击疫情的新驱动引擎。
达摩院这样的机构创办,最初或许并不为这样的时刻而生,但正在用实际行动带来希望、带来信心。
侠之大者,当如是。