AI医生时代来临!o1模型在医疗诊断中超越人类医生
Hinton梦想的AI医生要来了!斯坦福哈佛实测:o1以78%正确率超人类
在医疗领域,人工智能(AI)正在前所未有地影响传统医疗实践,OpenAI推出的o1-preview模型就是其中的佼佼者。近期,哈佛大学和斯坦福大学的研究团队对o1进行了深入测试,结果表明,其在医疗推理和诊断任务中的表现超过了人类医生,准确率高达78%。这一突破预示着AI在医疗诊断领域的广泛应用即将到来。
研究背景
在这项研究中,科学家们评估了o1-preview与数百名医生的诊断能力比较。他们使用了《新英格兰医学杂志》(NEJM)的临床病例以及真实的急诊室场景,通过随机抽取患者的方式进行实验。这项研究不仅关注于o1模型的准确性,还探讨了AI在医疗推理中的潜力,以及如何与人类医生的经验相结合。
实验结果
经过盲评的实验结果令人振奋,o1-preview在诊断准确率和推理能力方面都表现突出。
-
临床案例评估:研究团队对143个病例进行了分析,o1-preview的诊断质量与两位医生的表现高度一致,达到84%。在所有实验中,o1模型以78.3%的比例将正确诊断包含在其待选清单中。
-
第一诊断一击即中:在o1-preview提供的第一个诊断中,52%病例直接命中。
-
跟踪表现:无论是数据截止点之前还是之后,o1-preview的表现相对稳定:截止点前的准确率为79.8%,截止点后为73.5%。在与之前使用的GPT-4的比较中,o1-preview在88.6%的病例中展现了完全正确或非常接近的诊断结果,而GPT-4的相应比例为72.9%。
-
检查能力评价:在选择下一步诊断检查方面,o1-preview在87.5%的病例中选择了正确的检查方案,11%的病例被医生认为“有帮助”,仅1.5%的病例被视为“无帮助”。
推理表现
在NEJM Healer课程中进行的临床推理评估显示,o1-preview在80个病例中获得了78份R-IDEA的满分,明显超越了GPT-4及主治医生的表现。此外,o1-preview的中位覆盖率达到了0.92,与其他医生相比并没有显著差异。在处理灰色事项管理、标志性诊断及诊断概率推理案例中,o1-preview都表现得更为出色。
急诊案例表现
在比较o1与GPT-4以及两位主治医生的急诊诊断能力时,o1的表现始终优于他们。特别是在急诊室的初步分诊阶段,这是一个要求对患者信息进行快速判断的环节。o1在这个阶段的正确诊断率为65.8%,而医生的诊断率在54.4%到60.8%之间。随着信息的增加,所有诊断能力都得到了提升,但o1的优势始终明显。
专家观点
在研究的结尾,沃顿教授Ethan Mollick指出,医生应当积极使用AI来获取第二诊断意见,尽管最终的决定仍然在于医生个人,但不使用AI就如同放弃了一个能显著改善病人护理的重要工具。
医学博士Liam McCoy也指出,AI尤其适合执行鉴别诊断任务,这类任务需要高强度的联想能力,而不是单纯的推理能力。o1-preview的成功应用将为未来的医疗诊断流程带来革命性变革。
未来展望
随着AI技术的不断进步,o1-preview的成功不仅对医疗行业产生了直接影响,也为AI在其他行业的应用提供了经验借鉴。我们可以预见,AI将成为医生的重要助手,提升医疗服务的质量和效率。
AI医生的梦想正在逐步变为现实,但这场变革的核心在于如何将人类医生的经验与AI的精准结合,形成更强大的医疗系统。使用AI的医生将能够提供更加精准的医疗服务,提高诊断速度和准确性,最终将患者的医疗体验推向新的高度。
对于未来的医疗界来说,拥抱这一智能革命,将是提升服务水平、降低误诊率和改善患者成果的关键一步。随着更多实验与应用的展开,AI医生的时代已经在不远处等我们。