当前位置：首页 > news >正文

OpenAI宣布正式推出Realtime API

news 2025/8/30 8:42:51

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

自去年10月公开测试以来，已有数千名开发者使用Realtime API并推动其优化。与传统的语音处理管道（将语音转文字，再由语言模型生成文字，最后再转为语音输出）不同，Realtime API能够直接通过单一模型处理和生成音频，从而减少延迟、保留语音细节并实现更自然的互动。

多家企业已开始尝试该技术。例如，Zillow的AI负责人Josh Weisberg表示，新模型在处理复杂请求方面表现更佳，如根据生活方式需求筛选房源或结合融资工具指导购房预算，这让找房体验更接近自然对话。

gpt-realtime模型的主要改进包括：

音频质量：语音更加自然，能根据指令调整语气和语速，例如“快速且专业”或“带有同理心的法语口音”。新加入的Cedar和Marin声音尤其在自然感上有突破。
智能与理解力：更好地捕捉非语言提示（如笑声）、在对话中切换语言，并准确识别多语言的字母数字序列。在Big Bench Audio推理评估中，准确率达到82.8%，远超去年12月版本的65.6%。
指令遵循能力：在MultiChallenge多轮对话测试中，准确率达到30.5%，较之前的20.6%大幅提升，表现出对细微指令更敏锐的执行力。
函数调用能力：在ComplexFuncBench评估中准确率为66.5%，显著提升模型在生产环境下调用相关工具的时机和参数匹配能力，同时支持异步函数调用，保证对话流畅不中断。

Realtime API的新功能：

远程MCP服务器支持：只需在会话配置中加入MCP服务器地址，API即可自动处理工具调用，无需手动集成。
图像输入：开发者可以在会话中添加图片、照片或截图，结合语音和文本进行交互，使模型能基于用户所见提供反馈。
SIP电话呼叫支持：可直接连接公共电话网络、PBX系统和座机。
可复用提示：开发者可在不同会话中重复使用包含消息、工具及变量的提示内容，提升开发灵活性。

在安全与隐私方面，Realtime API内置多层防护机制，实时检测潜在违规对话并可终止，开发者也能利用Agents SDK增加额外的安全约束。此外，服务禁止输出被用于垃圾信息、欺骗或其他有害用途，并要求开发者明确告知用户何时与AI交互。该API已全面支持欧盟数据本地化，并遵循企业级隐私承诺。

价格方面，OpenAI宣布gpt-realtime的价格比之前的gpt-4o-realtime-preview降低20%：音频输入为每百万tokens 32美元（缓存输入为0.40美元），输出为每百万tokens 64美元。开发者还可通过智能上下文控制和多轮截断来降低长会话的成本。

目前，开发者可在官方文档中查看Realtime API的使用说明，在Playground中测试新模型，并参考提示指南来快速上手。

查看全文

http://www.xdnf.cn/news/1390663.html