【新智元导读】AI从医疗工具变身为协作队友,斯坦福大学研究揭示:医生诊断准确率竟飙升10%!70名美国执业医生参与的真实测试,AI-first、AI-second与传统诊断,谁能更精准破解临床谜题? 实验设计很巧妙:让医生和AI各自先独立分析病例,然后AI生成一份联合报告,不仅列出双方的共识和分歧,还会像资深医生一样点评每个诊断的合理性。 AI-first组:医生首先输入病例信息,查看AI生成的诊断建议(包括五个可能的诊断和七个后续步骤),然后结合自己的判断形成最终诊断。 AI-second组:医生先独立完成诊断(可以使用传统资源如UpToDate、PubMed等),再将病例和自己的初步诊断输入AI系统,AI会生成独立分析并与医生的诊断进行整合,生成一份综合报告。 每个病例包含病史、体检和实验室检查结果,医生需要提供三个可能的诊断、支持和反对的证据、最终诊断及三个后续步骤。 研究通过19分制的评分系统评估诊断的准确性,评分由两位内科认证医生独立完成,且评分者不知道答案来自医生还是AI,以确保公平。 它不仅生成自己的诊断,还会对比医生和AI的判断,生成一份综合报告,清晰列出双方提出的诊断、共识点、分歧点,并对每个诊断提供评论。 医生很容易漏掉某个实验室指标(比如「血清LDH升高」提示细胞破坏),但AI能瞬间扫描所有数据,精准关联高LDH+巨幼细胞贫血可能指向骨髓增生异常综合征。 比如看到老年女性、乏力、舌炎,可能优先考虑缺铁性贫血,但AI会跳出经验框架,提出维生素B12缺乏或甲状腺功能减退的可能性。 决策链的逻辑性:AI的诊断报告就像思维流程图:先列出3个最可能的诊断,再用支持证据和反对证据逐条论证,最后给出3个下一步检查建议。 1. 会「吵架」的批判性思维:当医生的诊断和AI不一致时,AI不会直接服从,而是会说:「您提到的原发性胆汁性胆管炎可能性较低,因为患者缺乏胆汁淤积的证据,但需要注意罕见变异型。」 2.能「翻译」的沟通能力:传统AI输出的是学术化的语言,但实验中的AI会用口语化表达:「目前看,真性红细胞增多症是最可能的,但淋巴瘤不能完全排除,建议先查血清EPO水平和骨髓活检。」 3.可「追溯」的透明化决策:每个诊断结论,AI都会标注证据来源,比如「支持淋巴瘤的证据是瘙痒和尿酸升高(引用文献X),反对证据是缺乏淋巴结肿大(引用指南Y)。」 比如,有个病例中医生误判缺铁性贫血,AI在后续分析中居然也把这个诊断放在了第一位。尽管按照数据,维生素B12缺乏才是更合理的方向。 有位住院医师在看到AI提出骨髓瘤时,立刻反驳:患者没有骨痛和蛋白尿,这个诊断可能性太低,并最终通过追问病史排除了这一方向。


