当前位置: 首页 > news >正文

AI医生时代来临!o1模型在医疗诊断中超越人类医生

Hinton梦想的AI医生要来了!斯坦福哈佛实测:o1以78%正确率超人类

在医疗领域,人工智能(AI)正在前所未有地影响传统医疗实践,OpenAI推出的o1-preview模型就是其中的佼佼者。近期,哈佛大学和斯坦福大学的研究团队对o1进行了深入测试,结果表明,其在医疗推理和诊断任务中的表现超过了人类医生,准确率高达78%。这一突破预示着AI在医疗诊断领域的广泛应用即将到来。

AI

研究背景

在这项研究中,科学家们评估了o1-preview与数百名医生的诊断能力比较。他们使用了《新英格兰医学杂志》(NEJM)的临床病例以及真实的急诊室场景,通过随机抽取患者的方式进行实验。这项研究不仅关注于o1模型的准确性,还探讨了AI在医疗推理中的潜力,以及如何与人类医生的经验相结合。

research

实验结果

经过盲评的实验结果令人振奋,o1-preview在诊断准确率和推理能力方面都表现突出。

  • 临床案例评估:研究团队对143个病例进行了分析,o1-preview的诊断质量与两位医生的表现高度一致,达到84%。在所有实验中,o1模型以78.3%的比例将正确诊断包含在其待选清单中。

  • 第一诊断一击即中:在o1-preview提供的第一个诊断中,52%病例直接命中。

  • 跟踪表现:无论是数据截止点之前还是之后,o1-preview的表现相对稳定:截止点前的准确率为79.8%,截止点后为73.5%。在与之前使用的GPT-4的比较中,o1-preview在88.6%的病例中展现了完全正确或非常接近的诊断结果,而GPT-4的相应比例为72.9%。

  • 检查能力评价:在选择下一步诊断检查方面,o1-preview在87.5%的病例中选择了正确的检查方案,11%的病例被医生认为“有帮助”,仅1.5%的病例被视为“无帮助”。

results

推理表现

在NEJM Healer课程中进行的临床推理评估显示,o1-preview在80个病例中获得了78份R-IDEA的满分,明显超越了GPT-4及主治医生的表现。此外,o1-preview的中位覆盖率达到了0.92,与其他医生相比并没有显著差异。在处理灰色事项管理、标志性诊断及诊断概率推理案例中,o1-preview都表现得更为出色。

diagnosis

急诊案例表现

在比较o1与GPT-4以及两位主治医生的急诊诊断能力时,o1的表现始终优于他们。特别是在急诊室的初步分诊阶段,这是一个要求对患者信息进行快速判断的环节。o1在这个阶段的正确诊断率为65.8%,而医生的诊断率在54.4%到60.8%之间。随着信息的增加,所有诊断能力都得到了提升,但o1的优势始终明显。

performance

专家观点

在研究的结尾,沃顿教授Ethan Mollick指出,医生应当积极使用AI来获取第二诊断意见,尽管最终的决定仍然在于医生个人,但不使用AI就如同放弃了一个能显著改善病人护理的重要工具。

医学博士Liam McCoy也指出,AI尤其适合执行鉴别诊断任务,这类任务需要高强度的联想能力,而不是单纯的推理能力。o1-preview的成功应用将为未来的医疗诊断流程带来革命性变革。

emergency

未来展望

随着AI技术的不断进步,o1-preview的成功不仅对医疗行业产生了直接影响,也为AI在其他行业的应用提供了经验借鉴。我们可以预见,AI将成为医生的重要助手,提升医疗服务的质量和效率。

opinions

AI医生的梦想正在逐步变为现实,但这场变革的核心在于如何将人类医生的经验与AI的精准结合,形成更强大的医疗系统。使用AI的医生将能够提供更加精准的医疗服务,提高诊断速度和准确性,最终将患者的医疗体验推向新的高度。

future

对于未来的医疗界来说,拥抱这一智能革命,将是提升服务水平、降低误诊率和改善患者成果的关键一步。随着更多实验与应用的展开,AI医生的时代已经在不远处等我们。

http://www.xdnf.cn/news/942301.html

相关文章:

  • 查看进程线程的方法
  • 进制符号表示
  • 【阿里巴巴 x 浙江大学】信息与交互设计 - 信息设计漫谈
  • AIGC 基础篇 Python基础 02
  • MS8312A 车规 精密、低噪、CMOS、轨到轨输入输出运算放大器,用于传感器、条形扫描器
  • arxir网址自动转向国内镜像
  • 【DTOF传感器】光子飞行时间传感技术
  • 通信之光端机
  • 苏超 - 江苏省城市足球联赛
  • Angular中Webpack与ngx-build-plus 浅学
  • 【刷题模板】链表、堆栈
  • AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月8日第102弹
  • 06. C#入门系列【自定义类型】:从青铜到王者的进阶之路
  • 星耀8上市品鉴暨北京中和吉晟吉利银河用户中心开业媒体见面会
  • 免费批量去水印工具 - 针对文心一言生成图片
  • DDR供电设计中的VTT与VREF作用和区别
  • leetcode Top100 189.轮转数组
  • global security market 的知识点总结 SMA
  • 给跳绳设计一双卡扣
  • Hilt在android项目中使用的注解说明
  • 设置QDialog的setModal(true)对show()无法阻塞
  • Python 训练营打卡 Day 46
  • 力扣-131.分割回文串
  • 基于fpga的疲劳驾驶检测
  • 【Autosar COM】Marvell 88Q5050 以太网交换机驱动技术解析
  • JavaScript 的意义
  • 山东大学项目实训——基于DeepSeek的智能写作与训练平台(十二)
  • cpp自学 day26(智能指针)
  • 基于算法竞赛的c++编程(23)原码,反码,补码
  • 《双指针》题集