上海专家团队开发深度学习模型,自动检测斜视手术视频中的主要手术步骤

admin 2024-07-04 阅读:6

近日,上海市儿童医院眼科乔桐教授团队与上海交通大学医学院附属新华医院郑策副教授在BMC Ophthalmology杂志上发表了题为“利用深度学习自动检测斜视手术视频中的步骤”的文章。该研究开发了一种深度学习模型,可以自动检测斜视手术视频中的主要手术步骤。研究人员认为,斜视手术步骤的自动分类和识别有助于提高斜视手术规范化培训的效果,也有望作为评估住院医师培训的重要手段。

斜视是指由于各种原因导致眼外肌协调异常,使两眼不能同时注视同一物体的现象,是造成儿童视觉发育障碍的常见眼病。据了解,全球儿童斜视的患病率约为0.8%~6.0%。斜视除影响美观外,还会导致弱视、双眼单视功能不同程度丧失,以及自信心下降、自尊心焦虑等社会心理后遗症。儿童斜视的早期发现和及时治疗至关重要,可以在矫正眼位、恢复美观的基础上,促进视力发育和双眼视功能的建立。

乔桐介绍,目前斜视临床诊断高度依赖眼科医生的专业检查和检查设备,耗费大量人力物力,效率低、覆盖面小,应用场景局限于临床。“在中国和许多其他国家,能够完成斜视筛查的眼科医生数量有限,大多数眼科住院医师无法接受足够、规范的斜视手术培训和教育。人工智能与医学融合的时代已经到来。人工智能在斜视诊疗领域的应用研究起步较晚,大致可分为识别诊断和手术规划两大类。”

在上述研究中,团队收集了上海市儿童医院眼科5位外科医生的479个手术视频,将手术视频分成3345个主要手术步骤片段。基于ICO斜视评价标准,斜视手术分为切开结膜、勾拉眼外肌、暴露眼外肌、预制缝线、分离眼外肌、测量位置、贴附眼外肌、缝合结膜8个步骤。随机组成训练集、验证集、内部测试集。

由于手术视频不仅包括单帧静态图像信息,还包括时间维度上的因果信息,研究团队采用了两次神经网络拼接的思路,其中利用卷积神经网络提取单帧图像中静态的手术动作信息,利用 Transformer 模型提取时间维度上的因果信息。模型架构主要包括输入端、中间模型、输出端三部分。 研究人员将神经网络设计成串联卷积神经网络(CNN)、循环神经网络(RNN)、门控循环单元(GRU)层三大块:首先利用谷歌团队在2017年提出的预训练神经网络DenseNet提取特征信息,包括图像单帧上的信息,比如RGP通道信息、空间信息等,通过降维将它们压缩拉伸为空间向量信息,然后利用注意力机制模型在时间维度上对这些信息进行融合,最后输出预测结果。

_医生将斜视手术“解剖”为3345个片段,用AI建模型定标准_医生将斜视手术“解剖”为3345个片段,用AI建模型定标准

本研究流程图及模型结构示意图。图片来源:BMC Ophthalmology

结果显示,深度学习模型对不同手术步骤的分类表现良好(AUC = 1.00;准确率= 96%),表明基于手术视频的深度学习模型可以自动识别斜视手术步骤,并且准确率较高。

研究人员认为这项研究在许多临床场景中都有潜力。住院医师学习斜视手术的学习曲线与基于反馈的教学指导密切相关。深度学习算法可以通过实时提醒下一步手术、在手术过程中识别和警告错误操作来减少手术错误并指导手术操作,尤其是对新手来说。此外,未来可以开发具有实时监督和客观手术评估的标准化手术培训系统,以提高斜视的整体手术效果。

据悉,研究团队将进一步探索和验证深度学习模型在眼科手术规范化培训中的潜在应用价值,并结合对比学习、计算机视觉等方法,拓展深度学习结果的可解释性及临床随访等多领域应用。

评论(0)