当前位置: 首页 > news >正文

迈向AI辅助数据分析代码生成的透明性与知识共享

李升伟 摘译

生成式人工智能(AI)及尤其大型语言模型(LLMs)正在改变我们进行数据科学研究的方式. 最显著的例子包括科学家使用该技术与科学数据交互, 回答数据分析问题, 生成数据分析代码以及(重新)撰写科研手稿. 然而遗憾的是,在科研成果发表时常常难以区分人类创作与AI生成的内容——因为发送给LLM的提示信息通常未被保存下来;当代科学文化中也尚未建立专业的同行评审体系来记录LLM是如何被引导产生代码以及由哪些研究人员进行了人工审核工作.

值得借鉴的是,在涉及多人协作编写代码的文化中已存在成熟的解决方案:例如GitHub和GitLab等源码仓库平台在开源社区中已被广泛用于讨论问题解决方案、协同开发程序并实施同行评审机制. 鉴于此前研究证实了LLMs能够解决真实场景下的GitHub问题, 我们认为下一步自然应该是开发能在GitHub平台上直接与人类交互的人工智能助手.

在此我提出git-bob——一个集成于GitHub/GitLab平台上的基于大模型构建的人工智能助手系统框架. 它能够响应开发者提交的问题单(Issue), 通过多轮迭代讨论提供潜在解决方案建议并自动生成相应代码片段最终形成待审拉取请求(Pull Request). 技术实现上它类似于现有的在线分析服务如OpenAl ChatGPT Data Analyst 或者 GitHub Copilot工作流但具有三大创新突破:

第一项革新在于支持多方人员在同一对话线程内共同参与: 生命科学家/数据分析师等不同领域专家可以联合人工智能助理展开研讨交流从而促进人机互动方法的知识传播;

第二项优势体现在所有人机对话过程及其引发的相关修改都会完整保留在公开可见的合作平台上实现了对整个决策链路的高度透明化追踪;

第三重价值则源于其完全开放源码的设计理念: 开发者不仅可以直接查阅内置提示模板进行个性化调整还能自行接入其他云服务商的大规模预训练模型甚至定制专属插件以适配特定领域的Issue处理逻辑需求.

原文:Haase, R. Towards transparency and knowledge exchange in AI-assisted data analysis code generation. Nat Comput Sci 5, 271–272 (2025). https://doi.org/10.1038/s43588-025-00781-1

http://www.xdnf.cn/news/332083.html

相关文章:

  • #黑马点评#(三)缓存穿透/雪崩/击穿
  • hadoop中的序列化和反序列化(1)
  • MySQL的information_schema在SQL注入中的关键作用与防御策略
  • 由浅入深谈Python书写规范
  • 【MySQL】-- 联合查询
  • Linux:进程控制1
  • 如何利用 QuickAPI 生成 PostgreSQL 样本测试数据:全面解析与实用指南
  • vue-qr生成的二维码增加下载功能
  • 【云备份】客户端开发
  • 百胜企业管理咨询:助力企业快速获得ecovadis认证
  • SecureCRT SFTP命令详解与实战
  • S32K3 HSE模块安装
  • 屏蔽力 | 在复杂世界中从内耗到成长的转变之道
  • STM32开发printf函数支持
  • LeetCode:二叉树的最大深度
  • React Native主题切换、字号调整:不用styled-components也能玩出花
  • 查询nvidia边缘设备的软硬件版本jetson_release
  • 【软件设计师:程序语言】4.程序语言基础知识
  • Unity-Socket通信实例详解
  • 【面试 · 二】JS个别重点整理
  • leetcode hot100 技巧
  • C++函数栈帧详解
  • Ultralytics中的YOLODataset和BaseDataset
  • comfyui 实现中文提示词翻译英文进行图像生成
  • 低成本监控IPC模组概述
  • D盘出现不知名文件
  • int (*)[3]和int (*arr_ptr)[3]区别
  • Spark应用部署模式实例
  • 个人网站versionI正式上线了!Personal Website for Jing Liu
  • ✍️【TS类型体操进阶】挑战类型极限,成为类型魔法师!♂️✨