距离谷歌Med-PaLM 2模型通过美国医师执照考试已经过去近两年,人工智能(AI)是否有资格成为临床医生的“假想敌”?
今年7月,《自然-医学》(Nature Medicine)杂志发表的一篇论文显示,即便是最先进的大型语言模型(LLM)也无法对所有患者做出准确诊断,其诊断准确率(73%)明显差于人类医生(89%);在极端情况下(胆囊炎诊断),LLM的准确率仅为13%。
但对于北京清华长庚医院神经内科中心医生皮景涛来说,他今年才刚刚从AI身上学到一课。8月下旬,皮景涛参与开发的“灵犀医学脑血管病专科模型”正式发布。该模型由其所在医院神经内科中心吴健教授团队研发,是国内首个基于专科疾病的医学人工智能模型。
“大模型的能力有强有弱,我们不能让它无拘无束地发挥。”皮景涛说,针对特定疾病的大模型和ChatGPT最大的区别就在于,对于AI编造出来的看似合理的诊疗建议,要及时遏制,以免造成灾难性的后果。
清华大学附属北京清华长庚医院神经内科教授吴健 图片来源:受访者提供
针对特定疾病的大模型瞄准的是基层最稀缺的专科医生
脑血管病作为我国四大慢性病之一,约三分之二的首发患者为60岁以上的老年人,具有“发病率高、患病率高、死亡率高、复发率高”的特点。截至2021年,我国65岁以上老年人口已超过2亿,脑血管病医生短缺、专业水平参差不齐的问题尤为突出。
“基层医院不缺全科医生,缺的是专科医生或者疾病专家,这就是大模型要解决的问题。”皮景涛介绍,脑血管病大模型是医疗机构和科技公司合作的产物,具体来说,新华三集团提供技术人员、AI算法和算力,北京清华长庚医院和清华大学提供大数据和临床需求,共同打造临床医生的辅助诊断工具。
吴建教授曾表示,医疗人工智能在缓解医疗资源短缺、提升医疗服务水平方面有着巨大的潜力和优势,其核心在于对海量健康数据的深度挖掘和智能分析,可以大幅提高临床诊疗的精准度和效率。
目前,这个大模型的核心功能是分析提取病历中的关键信息,并与临床知识库进行匹配,最终提供符合临床指南的标准化治疗建议。
一方面,临床医生可以输入脱敏后的(不含患者个人信息)临床病程信息,大模型会生成最终的治疗方案。这期间,如果大模型检测到病程信息有遗漏,会提醒医生及时补充,保证病历的规范化。
另一方面,临床医生也可以输入患者的主诉(如主要症状、持续时间)等简单信息,大模型会通过选择性交互引导问诊方向,并根据医生点击的选项逐步完善临床诊疗流程,从而提升医生的循证能力。
如果你想让大模型听进去,你就必须说出它能听懂的话。
在皮景涛看来,相较于ChatGPT等一般大模型,疾病专用大模型的专业性体现在思维链和知识库两个方面。以脑血管病专用大模型为例,其数据来源包括两部分:一部分是脱敏后的临床数据,涉及到疾病的具体特征、发病率、诊疗流程等综合信息;另一部分是公开的临床指南、大量的神经内科和神经科学教科书、参考书,这些构成了数据库的核心内容。值得注意的是,大模型并不能直接接收这些知识,而是需要临床医生和工程团队将临床指南的框架和重点内容转化为计算机能够理解的语言和流程,再输入到大模型中。
“如果直接无限制地喂它,大模型会向其他方面发散,产生一些新的认识。但临床指南已经是最高级别的标准化诊疗建议,在此基础上进行任何修改都是错误的,不是我们想要的。”皮景涛告诉记者,要想让大模型“听话”,除了给它喂计算机能“听懂”的知识外,关键是教会它一套临床医生的“思维链”,并依靠这种能力对不同患者的临床数据进行推断。
例如脑血管病医生的诊疗流程一般包括询问病史、进行体格检查、考虑辅助检查,综合分析后做出准确诊断。根据诊断结果,医生会考虑患者的具体病因及其他基础疾病,结合规范的诊疗建议,制定规范的治疗方案。
在这个过程中,不同的患者诉求指向了不同的问诊方向。但问题在于,大模型的思维虽然“发散”,却不具备独立构建思维链条的能力,所以工程团队需要对临床诊疗场景有深入的理解,将医生的临床思维转化为机器能够理解的思维。这个过程让临床医生和技术团队都经历了交叉学习。
“差距主要是语言障碍,比如我们不懂思路链,他们也不懂不同疾病之间的关系。但这不会对我们的研究造成实质性影响,只要了解对方领域基础知识,就能扫清困难。”皮景涛说。
评论(0)