期刊封面
腾讯天衍实验室郑冶枫:医学影像AI为什么需要小样本学习和域自适应技术?(4)
假如只有一张图像怎么做迁移呢?我们基于CycleGAN加了一个辅助任务,比如把阴天的图像迁移到晴天,对这些图像块进行迁移,这些图像来自相同或不同的目标域,如果我们可以区别彼此关系和域特征的话,从一个域切到另外一个域,可判断是哪个分类。这就是通过辅助任务做的四分类,即比较两个图像块,判断它是C1、C2还是D1、D2。这个技术比较通用,所以很多医疗场景里面都在使用,在自动驾驶上也得到了应用。
我们把单张图像里面的每个部分进行分割,在分割之后把图像块进行迁移,因为这些图像来自不同域,没有关联关系。所以从一个域切到另外一个域,首先需要判断分类。
这个技术比较通用,所以很多医疗场景里面都在使用,而且在自动驾驶上也得到了应用。
总结深度学习在医学影像分析上有巨大的应该空间,同时在落地上也面临很多挑战,比如缺乏大量标定好的训练样本,而且AI算法跨中心泛化能力也比较差。
小样本学习可以缓解缺乏训练样本的问题,比如通过Med3D,在大量异质的公开数据集上预训练,然后迁移到其他任务上。基于魔方的自监督学习,在预训练阶段不需要人工标定。
域自适应提高算法的跨中心泛化能力,能保证医疗场景下的域自适应(图像风格迁移)不改变人体组织结构。
会后专访雷锋网:2020年以来,天衍实验室相继开发了新冠肺炎AI预测,区域传染病预测等多种技术。下半年,在医疗大数据、医疗自然语言理解、医疗影像方面都有哪些最新的研发规划?
郑冶枫:实验室上半年主要的精力都在抗疫工作上,发声不多的原因在于实验室会把下半年乃至明年上半年的主要精力都集中在认证上面。医学影像领域,目前整个行业都集中精力在认证环节,这会直接影响后续所有产品的预研计划。
在现阶段,我们也有一些肝脏、心脏的预研项目。但是需要先确保之前的产品商业化,把模式跑通,后续其他产品的预研工作才能顺利开展,否则所有产品都卡在认证环节,后续还在投入大量的精力预研,风险就会成倍增加。
雷锋网:天衍实验室在医疗AI方面的学术进展比较突出,今年MICCAI上更是接收了多达14篇的论文。这14篇论文的关注重点也在于医疗数据标注、以及小数据集上的模型性能。在您看来,这两方面是否是医疗AI最急需解决的问题?为什么?这些学术成果如何更好地实现应用?
郑冶枫:在医疗AI领域,无论是落地价值,还是科学探索,小样本学习都有着重要的意义。因为医疗影像和其他视觉场景最大的区别就是数据较少,而深度学习本身的特征就是数据驱动。
从应用角度,小样本学习只是我们过去的一种储备技术,但这次新冠肺炎辅助诊断算法开发就得到了应用。在疫情初期只有几百例数据的情况下,实验室通过魔方自监督学习,直接提升了10%的模型准确率,在过去,要达到同样的效果,可能需要上万例数据。
雷锋网:GAIR大会上,周志华教授提出,过去AI都是的驱动都是数据+算法+算力,未来在这几点外可能还需要加入先验知识,您认为医疗AI是否也是同样的情况?
郑冶枫:这个观点我也深有同感,我在加入天衍实验室之前,就已经做了十几年的医疗影像分析。那时候还不是深度学习,主要都是基于机器学习算法,识别的效果也很不准确。所以,很多自动分割工作都需要在算法基础上结合知识经验才能完成,例如心脏分割、冠脉分割,就需要结合很多先验知识。
但深度学习出现以后,就发现只要数据足够多,算法效果就会变得很好,似乎一瞬间知识经验变得不重要。但其实深度学习也不是完美的,在数量较少的情况下就没有传统机器学习识别效果好。
所以现在我也在思考,深度学习时代怎样把知识经验融入医疗AI,但很困难。问题在于,先验知识不是通用的,医疗行业的不用领域就有不同的研究方式,还存在不同形状和分类的限制,每种先验知识加入网络都没有通用的方法,每种场景都需要定制化,这严重阻碍了知识与深度学习的进一步结合。
文章来源:《航空航天医学杂志》 网址: http://www.hkhtyxzz.cn/zonghexinwen/2020/0819/447.html
上一篇:北京朝阳医院童朝晖:半年“追疫”一万五千公里
下一篇:[文献]硫酸乙酰肝素蛋白聚糖在胶质母细胞瘤肿瘤微环境中的作用研究进展 |纪