当前位置: 首页 > news >正文

OpenAI宣布正式推出Realtime API

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

自去年10月公开测试以来,已有数千名开发者使用Realtime API并推动其优化。与传统的语音处理管道(将语音转文字,再由语言模型生成文字,最后再转为语音输出)不同,Realtime API能够直接通过单一模型处理和生成音频,从而减少延迟、保留语音细节并实现更自然的互动。

多家企业已开始尝试该技术。例如,Zillow的AI负责人Josh Weisberg表示,新模型在处理复杂请求方面表现更佳,如根据生活方式需求筛选房源或结合融资工具指导购房预算,这让找房体验更接近自然对话。

gpt-realtime模型的主要改进包括:

  • 音频质量:语音更加自然,能根据指令调整语气和语速,例如“快速且专业”或“带有同理心的法语口音”。新加入的Cedar和Marin声音尤其在自然感上有突破。

  • 智能与理解力:更好地捕捉非语言提示(如笑声)、在对话中切换语言,并准确识别多语言的字母数字序列。在Big Bench Audio推理评估中,准确率达到82.8%,远超去年12月版本的65.6%。

  • 指令遵循能力:在MultiChallenge多轮对话测试中,准确率达到30.5%,较之前的20.6%大幅提升,表现出对细微指令更敏锐的执行力。

  • 函数调用能力:在ComplexFuncBench评估中准确率为66.5%,显著提升模型在生产环境下调用相关工具的时机和参数匹配能力,同时支持异步函数调用,保证对话流畅不中断。

Realtime API的新功能:

  • 远程MCP服务器支持:只需在会话配置中加入MCP服务器地址,API即可自动处理工具调用,无需手动集成。

  • 图像输入:开发者可以在会话中添加图片、照片或截图,结合语音和文本进行交互,使模型能基于用户所见提供反馈。

  • SIP电话呼叫支持:可直接连接公共电话网络、PBX系统和座机。

  • 可复用提示:开发者可在不同会话中重复使用包含消息、工具及变量的提示内容,提升开发灵活性。

安全与隐私方面,Realtime API内置多层防护机制,实时检测潜在违规对话并可终止,开发者也能利用Agents SDK增加额外的安全约束。此外,服务禁止输出被用于垃圾信息、欺骗或其他有害用途,并要求开发者明确告知用户何时与AI交互。该API已全面支持欧盟数据本地化,并遵循企业级隐私承诺。

价格方面,OpenAI宣布gpt-realtime的价格比之前的gpt-4o-realtime-preview降低20%:音频输入为每百万tokens 32美元(缓存输入为0.40美元),输出为每百万tokens 64美元。开发者还可通过智能上下文控制和多轮截断来降低长会话的成本。

目前,开发者可在官方文档中查看Realtime API的使用说明,在Playground中测试新模型,并参考提示指南来快速上手。

http://www.xdnf.cn/news/1390663.html

相关文章:

  • 网络_协议
  • Qt事件_xiaozuo
  • 快速深入理解zookeeper特性及核心基本原理
  • Replay – AI音乐伴奏分离工具,自动分析音频内容、提取主唱、人声和伴奏等音轨
  • rust打包增加图标
  • 常见视频编码格式对比
  • 【3D入门-指标篇下】 3D重建评估指标对比-附实现代码
  • 哈希算法完全解析:从原理到实战
  • Python OpenCV图像处理与深度学习
  • 网页提示UI操作-适应提示,警告,信息——仙盟创梦IDE
  • 【贪心算法】day4
  • 实现自己的AI视频监控系统-第二章-AI分析模块5(重点)
  • 【开题答辩全过程】以 基于SpringBootVue的智能敬老院管理系统为例,包含答辩的问题和答案
  • 为什么特征缩放对数字货币预测至关重要
  • 克隆态驱动给用户态使用流程
  • Python 异步编程:await、asyncio.gather 和 asyncio.create_task 的区别与最佳实践
  • 【DeepSeek】公司内网部署离线deepseek+docker+ragflow本地模型实战
  • 软考-系统架构设计师 办公自动化系统(OAS)详细讲解
  • 【C语言】深入理解指针(2)
  • [打包压缩] gzip压缩和解压缩介绍
  • webservice在进行run maven build中出现java.lang.ClassCastException错误
  • C++基础(⑤删除链表中的重复节点(链表 + 遍历))
  • 【C++闯关笔记】STL:vector的学习与使用
  • Spring Security 传统 web 开发场景下开启 CSRF 防御原理与源码解析
  • CorrectNav:用错误数据反哺训练的视觉语言导航新突破
  • Apache服务器IP 自动跳转域名教程​
  • electron-vite 配合python
  • UPDF for mac PDF编辑器
  • JAVA:Spring Boot 集成 Easy Rules 实现规则引擎
  • 来自火山引擎的 MCP 安全授权新范式