唤醒“沉睡”的医疗大数据
人类已经全面进入大数据时代。而医疗与大数据的“联姻”一直被人们所期待,但遗憾的是大部分医疗数据仍处于“沉睡”状态。如何真正进行实践,让大数据为医生、为患者服务,赋能医疗新形态,依然是摆在我们面前的一道难题。
【编者按】共享数据,才能更好地使用数据。如何将这些散落的、非标准化的、复杂的数据集合起来并可使用、可计算,还需做大量且复杂的工作……
如何将散落的、非标准化的、复杂的医疗大数据集合起来并可使用、可计算,需要做大量且复杂的工作。当然这并非不可能实现,但需要成本及时间。
人类已经全面进入大数据时代。而医疗与大数据的“联姻”一直被人们所期待,但遗憾的是大部分医疗数据仍处于“沉睡”状态。如何真正进行实践,让大数据为医生、为患者服务,赋能医疗新形态,依然是摆在我们面前的一道难题。
专门数据库与大数据平台相配合
2016年,国务院发布《关于促进和规范健康医疗大数据应用发展的指导意见》,要求加快建设统一权威、互联互通的人口健康信息平台,推动健康医疗大数据资源共享开放;同年,《“健康中国2030”规划纲要》提出,消除数据壁垒,建立和完善全国健康医疗数据资源目录体系。2017 年,国务院发布《“十三五”深化医药卫生体制改革规划》,提出健全基于互联网、大数据技术的分级诊疗信息系统;应用药品流通大数据,拓展增值服务深度和广度。
医疗大数据的应用早已突破诊疗过程,与整个健康体系密切相关,对药物研发、健康管理和公共卫生服务等环节都具有重要意义。如何实现各个专门数据库与大数据平台之间的联通与配合,打通数据“孤岛”,是摆在医疗大数据实践面前的一道鸿沟。
北京大学肿瘤医院院长、教授季加孚以美国和日本的案例对此进行了分析。他指出:“目前国际大型肿瘤数据库大致分为两类:基于人群的数据库和基于医院系统的数据库。美国SEER(监测、流行病学和结果)数据库和日本癌症登记数据库属于前者,而美国的NCDB(国家癌症数据库)和日本的NCD(国家临床数据库)属于后者。”
比较来看,不同类型数据库所能实现的效果不同。季加孚分析说:“基于医院的数据库,更符合临床需求,可为患者诊断与治疗提供更多有针对性的信息。但是这类数据库存在就诊偏倚,并不能很好地反映人口学分层的特点,例如NCDB和SEER数据库在某些癌种的种族、年龄分布上存在差异。基于人群的数据库流行病学意义更加明确,能为国家战略制定提供更多依据。通常两种形式数据库间的相互融合、数据共享能起到1+1>2的作用。”
那么不同数据库之间是如何配合的呢?以日本NCD和癌症登记数据库为例,NCD主要收集详尽的围术期数据,而随访数据的积累一定程度上需依靠癌症登记数据库完成。由于《癌症登记法》的强制性和广泛覆盖,肿瘤登记处会收集肿瘤患者的预后信息。这些信息会由登记处返回到提供信息的医院,NCD即可通过医院获取肿瘤相关预后信息。
乳腺癌、胃癌、食管癌、肝癌等专病数据库也逐步并入NCD。此外,NCD还和DPCD(日本诊断程序组合数据库)等医疗保险数据库互通,开展卫生经济学相关研究。与之类似,美国SEER数据库与医疗保险合作,形成了SEER-Medicare数据库。
跨界合力才能打通数据“孤岛”
在大数据领域从业近十年的架构师沈辰在接受采访中告诉《中国科学报》,大数据具有所谓的“4V”属性,即大规模(volume)、多样性(variety)、产生和变化速度快(velocity)和价值密度低(value)。
“医疗大数据也是一样,如何将这些散落的、非标准化的、复杂的数据集合起来并可使用、可计算,需要做大量且复杂的工作。当然这并非不可能实现,但需要成本及时间。”
南京医科大学接受第二附属医院肠病中心主任张发明在采访中提出,医疗行为过程中会产生大量的数据,而将这海量的数据进行处理,真正为医疗服务,大部分医院目前不具备这样的能力和经验,需要大型数据服务商的支持。
上海第九人民医院在2013年搭建了基于临床数据仓库(CDR)大数据集成平台,其合作对象是微软中国。通过对所有的业务数据库的表单进行系统整合与深度挖掘,实现对医院的内部运营管理、医疗质量控制、医院感染管理、绩效考核与分配等实时数据分析管理,并且整合了单病种临床数据库与样本库、基因库关联的临床科研信息系统在临床研究方面的应用。
杭州健培科技有限公司是一家从事医学影像大数据挖掘和医疗人工智能技术的企业,开发了阅片机器人“啄医生”。董事长兼CEO程国华在创业初期就亲身经历过医生与科技人员在思维与工作方式方法上的碰撞,他在采访中告诉《中国科学报》:“医疗大数据的应用绝不单纯是医疗领域的事情,而是一项跨学科的问题。”
专业人才的缺乏同样也是摆在医疗大数据发展面前的难题。北京大学肿瘤医院在2013年就开展了肿瘤登记及数据库搭建工作,如今先后完成了基于电子病历平台的临床科研一体化模式、数据综合利用平台及临床试验管理系统项目,这样的成绩离不开专业的医疗信息化团队。
北大肿瘤医院信息部主任衡反修是医院搭建早期HIS系统的核心骨干,他认为,专业的技术背景和对医疗工作的深刻理解,才能真正“唤醒”医疗大数据。衡反修指出,对医院来说:客观存在“不敢、不愿、不会”三方面的问题,其中“不会”正是因为大数据必须要有技术支撑,没有技术支撑就没法儿对数据进行挖掘和利用。
他强调:“在数据共享开放过程中,技术、标准、机制、体制突破仍存在较大的障碍,造成各部门在推动过程当中‘不会’做。核心是数据能否做到安全可控,让医院放心。”
信息安全是共享的前提
共享数据,才能更好地使用数据。程国华指出,尽管我们拥有海量的医疗大数据但是共享的程度很低,“沉睡”的大数据无法发挥作用。
“最直接的结果就是患者重复就医、医生重复看病、给患者重复做同样的检查等。这既给患者增加了沉重的负担,延误了治病的最好时机,又浪费了有限的医疗资源。从某种意义上可以说,这也是造成医患矛盾的一个重要原因。更不用说医务人员利用海量的医疗大数据进行科研,提高医疗水平了。”
大数据共享不易,重要原因正是出于对信息安全的担忧。医疗数据是极为敏感的隐私信息,一旦发生泄露,后果极其恶劣。2018年新加坡保健集团健康数据遭黑客攻击,150万人的个人信息被非法获取。新加坡总理李显龙的配药记录、门诊信息也遭到外泄,其他多名部长的个人资料和门诊配药记录同样被黑客获取。这一时间直接导致新加坡所有的“智能国家”计划暂停,包括强制性的“国家电子健康记录”(NEHR)项目——该项目允许新加坡的医院互相分享患者的治疗记录和医疗数据。
衡反修分析说:“不敢,正是因为数据共享、数据安全这些问题没有解决,所以不敢去做。没有规定,或者不太明确,不敢做。”
季加孚建议,对于大数据安全,可参考国际通用的健康保险携带和责任(HIPAA)法案对患者数据进行脱敏,保证患者数据隐私;采用加密强度较高的算法,确保数据存储与传输的安全问题;参照国家信息安全等级保护,引进吸收国外医疗行业先进数据安全管理理念,实现传统网络安全与数据安全的融合。