当前位置：首页 > news >正文

AI医生时代来临！o1模型在医疗诊断中超越人类医生

news 2025/6/9 13:52:00

Hinton梦想的AI医生要来了！斯坦福哈佛实测：o1以78%正确率超人类

在医疗领域，人工智能（AI）正在前所未有地影响传统医疗实践，OpenAI推出的o1-preview模型就是其中的佼佼者。近期，哈佛大学和斯坦福大学的研究团队对o1进行了深入测试，结果表明，其在医疗推理和诊断任务中的表现超过了人类医生，准确率高达78%。这一突破预示着AI在医疗诊断领域的广泛应用即将到来。

研究背景

在这项研究中，科学家们评估了o1-preview与数百名医生的诊断能力比较。他们使用了《新英格兰医学杂志》（NEJM）的临床病例以及真实的急诊室场景，通过随机抽取患者的方式进行实验。这项研究不仅关注于o1模型的准确性，还探讨了AI在医疗推理中的潜力，以及如何与人类医生的经验相结合。

research

实验结果

经过盲评的实验结果令人振奋，o1-preview在诊断准确率和推理能力方面都表现突出。

临床案例评估：研究团队对143个病例进行了分析，o1-preview的诊断质量与两位医生的表现高度一致，达到84%。在所有实验中，o1模型以78.3%的比例将正确诊断包含在其待选清单中。
第一诊断一击即中：在o1-preview提供的第一个诊断中，52%病例直接命中。
跟踪表现：无论是数据截止点之前还是之后，o1-preview的表现相对稳定：截止点前的准确率为79.8%，截止点后为73.5%。在与之前使用的GPT-4的比较中，o1-preview在88.6%的病例中展现了完全正确或非常接近的诊断结果，而GPT-4的相应比例为72.9%。
检查能力评价：在选择下一步诊断检查方面，o1-preview在87.5%的病例中选择了正确的检查方案，11%的病例被医生认为“有帮助”，仅1.5%的病例被视为“无帮助”。

results

推理表现

在NEJM Healer课程中进行的临床推理评估显示，o1-preview在80个病例中获得了78份R-IDEA的满分，明显超越了GPT-4及主治医生的表现。此外，o1-preview的中位覆盖率达到了0.92，与其他医生相比并没有显著差异。在处理灰色事项管理、标志性诊断及诊断概率推理案例中，o1-preview都表现得更为出色。

diagnosis

急诊案例表现

在比较o1与GPT-4以及两位主治医生的急诊诊断能力时，o1的表现始终优于他们。特别是在急诊室的初步分诊阶段，这是一个要求对患者信息进行快速判断的环节。o1在这个阶段的正确诊断率为65.8%，而医生的诊断率在54.4%到60.8%之间。随着信息的增加，所有诊断能力都得到了提升，但o1的优势始终明显。

performance