当前位置: 首页 > news >正文

Nature子刊|ChatNT:生物多模态LLM破壁者!统一DNA/RNA/蛋白质分析的对话式AI

语言模型正在蓬勃发展,为对话代理提供动力,帮助人类解决一系列任务。最近,这些模型被扩展到支持更多模式,包括视觉、音频和视频,在包括医疗保健在内的多个领域展示了令人印象深刻的能力。尽管如此,对话式代理在生物学领域仍然受到限制,因为它们还不能完全理解生物序列。

近日,英国人工智能公司InstaDeep团队在《Nature Machine Intelligence》发表了一篇研究论文《A multimodal conversational agent for DNA, RNA and protein tasks》,该研究提出了一种对话模型——ChatNT。ChatNT能用英语一次性解决所有任务,并能泛化到未见过的问题。此外,研究团队还从 DNA、RNA 和蛋白质中整理出了一组更具生物相关性的指令任务,涵盖多个物种、组织和生物过程。在这些任务上,ChatNT 的性能与最先进的专门方法不相上下。

一、问题提出

生物学领域的高通量测序技术产生了海量的基因组、转录组和蛋白质组数据,但现有的深度学习模型存在两大局限性:

  • 任务专用性:当前的基础模型(如Nucleotide Transformer)需针对每个任务单独微调,导致模型碎片化,无法跨任务泛化。

  • 交互壁垒:生物学家通常缺乏编程能力,而现有模型缺乏自然语言交互界面,限制了其实际应用。

二、解决方案

研究团队提出了ChatNT(Chat Nucleotide Transformer),一种多模态对话代理,通过以下创新解决上述问题:

  • 统一任务框架:将DNA、RNA和蛋白质任务转化为“文本到文本”的指令形式,支持用户以自然语言提问(如“这段人类DNA序列是否包含启动子?”)。

  • 多模态架构:结合DNA编码器(Nucleotide Transformer v2)与英文解码器(Vicuna-7b),通过投影层将生物序列嵌入到语言模型空间,实现跨模态理解。

  • 零样本泛化:模型通过统一训练目标(交叉熵损失)同时学习27项任务,无需针对新任务重新训练。

 

图1 chatNT可解决的下游生物序列

三、方法模型

  • 架构设计

    • DNA编码器:基于850个物种基因组预训练的Nucleotide Transformer v2,提取DNA序列特征。

    • 英文解码器:冻结参数的Vicuna-7b(LLaMA微调版),保留自然语言生成能力。

    • 动态投影层:创新性引入“问题感知”的Perceiver Resampler,根据用户指令动态提取DNA特征,避免信息瓶颈。

  • 训练数据:

    • 构建包含605M DNA token(36亿碱基对)和273M英文token的指令数据集,涵盖启动子识别、RNA降解率预测、蛋白质熔点等任务。

    • 任务类型包括分类(如增强子检测)和回归(如polyA位点评分),覆盖人类、小鼠、植物等多物

 

图2 chatNT模型训练流程

四、方法性能

  • 基准测试

    • 在Nucleotide Transformer基准(18项任务)中,ChatNT平均马修斯相关系数(MCC)达0.77,超越原模型(0.69)。

    • 在27项生物任务中,其表现与专用模型相当(如APARENT2的RNA多聚腺苷化预测PCC=0.91 vs. 0.90)

 

图3 chatNT与13种基因组学基础模型的性能比较

 

 

图4 在基因组学、转录组学和蛋白质组学任务中,比较 ChatNT与特定领域baseline的性能差别

  • 关键优势:

    • 多任务统一:单一模型解决DNA甲基化、RNA稳定性、蛋白质功能等跨领域任务。

    • 生物可解释性:通过梯度分析显示模型依赖已知序列特征(如TATA-box基序、GT/AG剪接位点)。

    • 置信度校准:提出基于困惑度的概率输出方法,使分类任务的预测可靠性显著提升(如染色质可及性任务校准后准确率与置信度对齐)。

  • 局限性:

  • 回归任务(如RNA降解率)性能略低于专用模型(PCC差10%),可能因训练数据不平衡。

  • 植物增强子预测性能较弱,提示需优化编码器的跨物种表征能力。

五、结论与展望

ChatNT首次将多模态对话能力与生物序列分析结合,其核心贡献在于:

  • 通用性:通过自然语言指令实现多任务统一建模,降低生物学家使用门槛。

  • 可扩展性:框架支持未来整合RNA/蛋白质编码器(如ESM2),迈向全模态生物AI。

  • 应用潜力:为基因变异影响评估、跨物种调控元件发现等场景提供新工具。

 

原文链接

https://www.nature.com/articles/s42256-025-01047-1

模型链接:

https://huggingface.co/InstaDeepAI/ChatNT

 

 

http://www.xdnf.cn/news/971353.html

相关文章:

  • JAVA中的多线程
  • 常见算法题目6 - 给定一个字符串,输出其最长的回文子串
  • F5 BIG IP show running config
  • 模型参数、模型存储精度、参数与显存
  • Postman参数化详解
  • leetcode_35.搜索插入位置
  • 如何查看电脑系统的初始安装时间?
  • 龙虎榜——20250610
  • 【沉浸式求职学习day53】【Spring】
  • MFC 第一章概述
  • 2025 Java 面试大全
  • 39.第二阶段x64游戏实战-封包-分析计数器
  • gro文件和top文件介绍,以及如何合并两个gro文件或两个top文件
  • 【论文解读】ReSearch:让LLM自主学习搜索
  • Qt进阶开发:动画框架的介绍和使用
  • Zynq multi boot及网口远程更新开发
  • Android Studio 问题:Android Studio 一直开在 Updating indexes
  • 【运维】【期末实训】网站简易搭建模拟
  • 核心机制:面向字节流
  • C++:std::is_convertible
  • <7>-MySQL内置函数
  • Python训练营-Day27-函数专题2:装饰器
  • Java如何权衡是使用无序的数组还是有序的数组
  • copilot基于 DeepSeek-R1 思路构建 VLA 自动驾驶强化学习系统
  • 华为云Flexus+DeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建联网大模型
  • QMC5883L的驱动
  • iview组件库:自定义方法去控制Tree树形数据的根节点与叶节点的关联性
  • Android Studio jetpack compose折叠日历日期选择器【折叠日历】
  • IOC和AOP
  • vue实现气泡词云图