OpenAI宣布正式推出Realtime API
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
自去年10月公开测试以来,已有数千名开发者使用Realtime API并推动其优化。与传统的语音处理管道(将语音转文字,再由语言模型生成文字,最后再转为语音输出)不同,Realtime API能够直接通过单一模型处理和生成音频,从而减少延迟、保留语音细节并实现更自然的互动。
多家企业已开始尝试该技术。例如,Zillow的AI负责人Josh Weisberg表示,新模型在处理复杂请求方面表现更佳,如根据生活方式需求筛选房源或结合融资工具指导购房预算,这让找房体验更接近自然对话。
gpt-realtime模型的主要改进包括:
音频质量:语音更加自然,能根据指令调整语气和语速,例如“快速且专业”或“带有同理心的法语口音”。新加入的Cedar和Marin声音尤其在自然感上有突破。
智能与理解力:更好地捕捉非语言提示(如笑声)、在对话中切换语言,并准确识别多语言的字母数字序列。在Big Bench Audio推理评估中,准确率达到82.8%,远超去年12月版本的65.6%。
指令遵循能力:在MultiChallenge多轮对话测试中,准确率达到30.5%,较之前的20.6%大幅提升,表现出对细微指令更敏锐的执行力。
函数调用能力:在ComplexFuncBench评估中准确率为66.5%,显著提升模型在生产环境下调用相关工具的时机和参数匹配能力,同时支持异步函数调用,保证对话流畅不中断。
Realtime API的新功能:
远程MCP服务器支持:只需在会话配置中加入MCP服务器地址,API即可自动处理工具调用,无需手动集成。
图像输入:开发者可以在会话中添加图片、照片或截图,结合语音和文本进行交互,使模型能基于用户所见提供反馈。
SIP电话呼叫支持:可直接连接公共电话网络、PBX系统和座机。
可复用提示:开发者可在不同会话中重复使用包含消息、工具及变量的提示内容,提升开发灵活性。
在安全与隐私方面,Realtime API内置多层防护机制,实时检测潜在违规对话并可终止,开发者也能利用Agents SDK增加额外的安全约束。此外,服务禁止输出被用于垃圾信息、欺骗或其他有害用途,并要求开发者明确告知用户何时与AI交互。该API已全面支持欧盟数据本地化,并遵循企业级隐私承诺。
价格方面,OpenAI宣布gpt-realtime的价格比之前的gpt-4o-realtime-preview降低20%:音频输入为每百万tokens 32美元(缓存输入为0.40美元),输出为每百万tokens 64美元。开发者还可通过智能上下文控制和多轮截断来降低长会话的成本。
目前,开发者可在官方文档中查看Realtime API的使用说明,在Playground中测试新模型,并参考提示指南来快速上手。