当前位置: 首页 > news >正文

OpenAI Codex 加入Agent编程工具新阵营

上周五,OpenAI推出了一款名为Codex的新型编程系统,该系统能够通过自然语言命令执行复杂的编程任务。Codex标志着OpenAI正式进军正在形成的代理编程工具新阵营。

从GitHub早期的Copilot到当代的Cursor和Windsurf等工具,大多数AI编程助手都是作为一种极其智能的自动补全形式存在。这些工具通常集成在开发环境中,用户直接与AI生成的代码交互。而简单地分配任务并在任务完成时返回查看结果的可能性,在过去很大程度上是无法实现的。

但是,以Devin、SWE-Agent、OpenHands以及上述OpenAI Codex为代表的新型代理编程工具,旨在无需用户查看代码就能完成工作。其目标是像工程团队的管理者一样运作,通过Asana或Slack等工作系统分配问题,并在解决方案达成时进行检查。

对于那些相信高性能AI的人来说,这是自动化逐步接管更多软件工作的自然进程中的下一个逻辑步骤。

“最开始,人们通过每一次按键来编写代码,”普林斯顿研究员兼SWE-Agent团队成员Kilian Lieret解释道,”GitHub Copilot是第一个提供真正自动补全的产品,这有点像第二阶段。你仍然完全参与其中,但有时你可以走捷径。”

代理系统的目标是完全超越开发环境,而是向编码代理提出问题并让它们自行解决。”我们将事情拉回到管理层面,我只需分配一个错误报告,机器人就会尝试完全自主地修复它,”Lieret说。

这是一个雄心勃勃的目标,但到目前为止,实现起来并不容易。

在Devin于2024年底公开发布后,它受到了YouTube评论者的严厉批评,以及Answer.AI早期客户更为理性的批评。总体印象与”感觉编码”老手们熟悉的情况相似:错误太多,监督模型需要的工作量与手动完成任务一样多。(尽管Devin的推出有些坎坷,但这并没有阻止投资者认识到其潜力——3月,Devin的母公司Cognition AI据报道以40亿美元估值融资数亿美元。)

即使是这项技术的支持者也警告不要进行无人监督的”感觉编码”,他们将新的编码代理视为人工监督开发过程中的强大元素。

“目前,并且我认为在可预见的未来,人类必须在代码审查时介入,查看已编写的代码,”All Hands AI的CEO Robert Brennan说,该公司维护着OpenHands。”我看到过几个人通过自动批准代理编写的每一段代码而把自己搞得一团糟。这很快就会失控。”

幻觉也是一个持续存在的问题。Brennan回忆起一个事件,当被问及在OpenHands代理训练数据截止日期之后发布的API时,代理编造了符合描述的API细节。All Hands AI表示,它正在开发系统来捕捉这些幻觉,防止它们造成伤害,但目前还没有简单的解决方案。

衡量代理编程进展的最佳标准可能是SWE-Bench排行榜,开发者可以在那里测试他们的模型,解决来自开放GitHub仓库的未解决问题。OpenHands目前在已验证的排行榜上排名第一,解决了65.8%的问题集。OpenAI声称为Codex提供动力的模型之一codex-1可以做得更好,在其公告中列出了72.1%的得分——尽管这个得分附带了一些注释,并且尚未经过独立验证。

科技行业许多人担心的是,高基准分数不一定能转化为真正的无人值守代理编码。如果代理编码者只能解决四分之三的问题,他们将需要人类开发者的大量监督——特别是在处理具有多个阶段的复杂系统时。

与大多数AI工具一样,人们希望基础模型的改进能够稳步推进,最终使代理编码系统成长为可靠的开发者工具。但是,寻找管理幻觉和其他可靠性问题的方法将是实现这一目标的关键。

“我认为这有点像音障效应,”Brennan说,”问题是,你能在多大程度上信任代理,让它们最终减轻你的工作负担?”

http://www.xdnf.cn/news/553717.html

相关文章:

  • Git客户端安装、操作
  • 进阶知识:自动化框架开发之有参的函数装饰器@wraps()和无参之间的对比
  • 蓝牙OBEX和PBAP协议概述
  • 项目计划缺乏可行性,如何制定实际可行的计划?
  • 利用 SQL Server 作业实现异步任务处理,简化系统架构
  • 集成思想在算法(目标检测)中的体现
  • 芯片分享之AD5542性能介绍
  • docker 安装 Nacos
  • 从复杂度到有序:大模型专家系统的进化之路——深入解析层次化专家模式
  • Linux bash shell的循环命令for、while和until
  • 策略调度平台实现总结
  • MySQL基础关键_014_MySQL 练习题
  • KeepassXC (Win10) 打不开的解决方法
  • Nginx笔记
  • 开疆智能Profinet转RS485网关连接电磁流量计到西门子PLC配置案例
  • STM32--串口函数
  • 随机数种子seed和相关系数ρ
  • vue3 + echarts(5.6.0)实现渐变漏斗图
  • vue2实现【瀑布流布局】
  • 粤港澳编程题
  • 【HTML-2】HTML 标题标签:构建网页结构的基础
  • Tomcat配置详情
  • 解码数据语言:如何优雅的进行数仓字典建设?
  • C++:迭代器
  • C++数据结构——红黑树
  • 如何使用通义灵码辅助开发鸿蒙OS - AI编程助手提升效率
  • centos7配置静态ip 网关 DNS
  • 数据实时同步:inotify + rsync 实现数据实时同步
  • 《深入理解指针数组:创建与使用指南》
  • 【C/C++】static关键字的作用