人工智能(Artificial intelligence,AI)在中国传统棋弈中笑傲江湖的余音未落,其在国内医疗领域的热度也好似“忽如一夜春风来,千树万树梨花开”,在各个层面拉开帷幕。6月21日,腾讯人工智能实验室对外分享了成立一年多来的成绩,对外公布其相关人工智能产品查出肺癌的准确率达63%,排除肺癌的准确率达78%,并且再给三个月时间,其AI可继续提高准确度。
一时间,业内更见所谓肺癌检查领域“看片n秒可比主治医师”、“筛查准确度超过平均医生水平”的“给力”报道。几番读罢不免 “闲敲棋子落灯花”, 想以一个医生的视角,聊一聊医学中的人工智能。
所谓“人心无算处,国手有输时”。人工智能面对各大围棋精英的完美战绩,毫无疑问验证了当今人工智能超强的计算处理能力,长远而言,笔者也相信人工智能在医学领域一定会有所作为。然而,医学的特殊性和严谨性,要求我们在做出任何对患者有导向性意见或建议时,兼听慎思。
首先,人工智能(AI)本身并非其代言明星如“阿尔法狗”(AlphaGo)一般的新兴概念,搜索考据一番即可。
图片来源:BBC中文网
事实上,人工智能在医学领域的尤其是医学影像学中应用早已有之,只是赋以另外的名称,叫做计算机辅助诊断,(Computer Aided Diagnosis/Detection,简称CAD)或者中文的计算机辅助诊断——这个就有点好比原先我们小时候吃的樱桃现在主流称呼变成了车厘子(Cherry)一样。 而可以代表目前CAD在医学乃至医学影像学中的最高水平的应用,是近段时间国内特别热门的肺结节检测,以及乳腺病变的辅助诊断。两者都不是新事物,国外商业化应用早就集中在这两个领域,美国FDA对此也有专门的规范。
CAD之所以特别着力于乳腺和肺部结节,并非因为二者高居女性恶性肿瘤排行榜前两位(男性为肺癌和前列腺癌,后者的CAD也在开发中),而是由于两者的病变影像学特点和目前的人工智能技术能够有效对接。
简单来说,肺结节(白色)和背景的肺组织(充满空气,黑色)对比强烈,乳腺x光片中需要寻找的钙化灶(亮白色)同背景乳腺组织尤其是筛查年龄段中逐渐增多的乳腺脂肪(灰白色至黑色)组织也有显著密度差别,这一差别使得CAD有了用武之地,打个不恰当的比方,就好比棋盘之上让“阿尔法狗”从一堆黑白棋子中选出白棋,当然,实际情况会复杂很多。
现代西方医学的一个重要基础是循证医学。而循证医学最核心的方法学是流行病学、临床流行病学、统计学、卫生经济学、计算机科学等的集合。循证医学是现代医学的一个里程碑,标志着临床医学实践从经验走向理性,其核心是要告诉临床研究者和实践者如何做才更科学。而CAD在临床的应用,同样也要遵循这一基础。
简单举例来说,假如一个普通人被告知他有12.5%的几率患某种肿瘤,这12.5%也应该被解释为他同样有87.5%的几率不患这类疾病,这就是医学的严谨性,也是医学之所以“复杂”的专业性。
因此,对“人工智能产品查出肺癌的准确率达63%,排除肺癌的准确率达78%”而言,我们同样应该告知患者的是:这一人工智能产品查出肺癌的失误率有37%,排除肺癌的失误率有22%。当然,按照AI的学习效率,原数据也提到 “再给三个月时间,可(继续)提高准确度”。但不论数据如何变化,这其中的差异及专业性的评估,尤其对于推广“人工智能肺癌普查”这个已经属于医学范畴的项目来说,是不能回避。
谈到人工智能的学习效率,也就要提及人工智能“过度学习”的问题。中国有句成语“过犹不及”,实际上美国FDA在2008年就明确提到过CAD“过度学习”的潜在问题,即当人工智能装置被有意无意的选择性的供给学习数据以后,在所提供的数据框架内CAD可以表现得相当“完美”,但一旦运行中面对的场景发生变化,则其效能立刻出现很大下滑。而千变万化的临床情况正是CAD必须直面的挑战。正如腾讯“云+未来”峰会上,加州大学伯克利分校教授、人工智能专家Michael Jordan所说的:“当放到对人类做出一些医疗决策的环境中时,一个单独的机器仅根据周围信息做决策是很危险的,因为有时候机器了解的信息也是不全面的,这会影响决策方向。”
举个例子,早期肺癌在影像学上除了表现为结节以外,还有毛玻璃样及毛玻璃伴部分实性结节的表现。近几年,后两者在国内早期肺癌中越来越突出。而按照医学标准诊断一份肺部影像,除了检查以上病变,还有肺间质、气管、血管、胸膜、淋巴结、纵隔、食道、骨骼等一系列的结构需要观察和诊断。医学的复杂在于“异病同相,同病异相”,打开任何一部医学书籍,一个肺部结节的鉴别诊断之多一定会让普通大众大开眼界。同样不能忽略的,还有是否存在过度诊断的问题,比如检出所谓3mm以内的“病灶”是否有临床意义?
以上列举种种,对于近来网络上“人工智能诊断一张数字拍片的时间不到0.1秒,读一张CT结果只需5秒”的宣传,想必读者可以自行判断。日常生活中大家对“头疼医头,脚痛医脚”的情况都很感冒,要知道人工智能如果忽略了人的指导因素,就难免会有这样一种走岔道的风险。
再次,人工智能的发展基础是大数据分析,是纯粹的医学概率论,试想,一份分析了你各种情况以后“高度智能”的报告,告知系统发现你有“一个微小肺部病灶,根据智能诊断分析,66.6%可能性为良性,33.3%的可能性为恶性,另有0.1%的可能性为伪影/识别误差”,这样的“专业报告”,你能够点赞吗?
实事求是的说,人工智能确实能为临床医生提高效率、降低失误。因为即使最专业、最敬业的医生,也不能如机器系统一般无差别的保持工作状态,而人工智能这个时候就能够为医生的医疗行为,乃至患者的最终健康安全增加保障。
这样的保障,是建立在人工智能系统和医生的有效互动及互信、互助的基础上。在当前国内人工智能的医学应用相当网红的起步阶段,更要强调一下人工智能医学应用中合理开发的重要性,避免“闭门益智”:即一定要深入临床,设身处地的了解医生的真正想法和需求,调整纯技术开发的思路,将医患需求和技术提升有机结合,开发真正“接地气”的功能,不必都千军万马的挤那么些“独木桥”。
再引用一下人工智能专家Michael Jordan的话:“我们所谓的人工智能看上去很智能,但并非如此。比如说在医疗行业中,我们让机器做很多的医学诊断,这是不太可能的。”实际上,把AI 解读为Assistant intelligence即助理智能,或许比人工智能Artificial intelligence更贴近其真实内涵和定位,目前国际上已经出现的很多相关的迷你/口袋型人工智能运用,也可以说是一个行业的风向标。
更值得说的,在各大重资产雄心勃勃的大力投入“高精尖”人工智能的当下,不要忽略了中国医疗的真正痛点是医务人员相对缺乏、医疗服务体系布局不完善、基层医疗机构医疗资源相对缺乏。如果能够将对人工智能的投入布局到对医疗教育的支持,尤其是基层医疗的标准化培训中来,再辅以中国特色的医学人工智能的开发应用,这样的硬件软件都欣欣向荣的医疗市场,一定是大有可为的。