当前位置: 首页 > ds >正文

解码生命语言:深度学习模型TranslationAI揭示RNA翻译新规则

RNA翻译是基因表达的核心环节,其精确调控依赖于翻译起始位点(TIS)和终止位点(TTS)的准确识别。传统方法依赖于简单的经验规则(如Kozak序列或最长开放阅读框ORF),但忽略了RNA结构、顺式调控元件等复杂因素,导致预测准确性有限。近年来,深度学习技术在生物学领域的应用为解决此类复杂问题提供了新思路。近日,《Nucleic Acids Research》发表了一项突破性研究——TranslationAI,一个基于深度学习的模型,能够直接从全长度mRNA序列预测翻译起始位点(TIS)和终止位点(TTS),并揭示了翻译调控的新规律!

 

图示摘要

TranslationAI的架构与训练

TranslationAI基于深度残差卷积神经网络构建,采用独热编码表示mRNA序列作为输入(图1A)。模型包含32层扩张卷积结构,能够处理长达2000 nt的侧翼序列,输出每个位置作为TIS、TTS或非翻译位点(NS)的概率(图1A,补充图S1)。训练数据集来自RefSeq注释的47,098个人类蛋白质编码转录本,其中70%用于训练,30%用于测试。模型通过优化分类交叉熵损失函数,结合Adam优化器进行训练,最终在测试集上实现了>99%的精确召回曲线下面积(PR-AUC)(图1B)。

 

图1:用于翻译预测的深度学习网络构建

模型性能与特征分析

TranslationAI在预测经典TIS/TTS时表现出色,其准确性随输入窗口增大而显著提升(图1B)。值得注意的是,长序列上下文(如2k nt)对预测至关重要,尤其是对于长转录本(图1C)。模型通过系统扰动实验揭示了其学习的关键特征:

  • 密码子身份:替换经典起始或终止密码子会显著降低预测分数(图1F)。

  • UTR序列:5'-UTR的扰动对TIS预测影响显著,而3'-UTR的扰动对TTS预测影响较小(图1G)。

  • 密码子偏好:高密码子适应指数(CAI)的 synonymous 突变提升预测分数,反之则降低(图1I)。

  • 三联体规则:单或双核苷酸缺失破坏阅读框,显著影响预测,而三核苷酸缺失影响较小(图1H)。

 

翻译终止的新调控机制

TranslationAI揭示了密码子使用在翻译终止中的重要作用。强终止位点上游倾向于富含C/G的密码子,且第三位碱基的C/G偏好尤为显著(图2D)。这种密码子偏好可能与进化选择有关,暗示着密码子使用在翻译终止中的未被充分认识的作用(图2D)。实验验证显示,在终止密码子上游引入C/G富集的 synonymous 突变可减少翻译通读,而A/U富集的突变则增加通读(图2F)。此外,核糖体分析数据支持弱TTS位点后存在更高的翻译泄漏(图2G)。

 

图2:TranslationAI预测特征的评估

非经典ORF的发现

TranslationAI成功预测了人类转录组中大量非经典ORF,包括上游ORF(uORF)、下游ORF(dORF)及lncRNA中的新ORF(图3A)。例如,模型在lncRNA中鉴定了3,794个潜在可翻译ORF,其中部分通过核糖体分析(Ribo-seq)和质谱(MS)验证(图3F, 3G)。值得注意的是,模型对经典TIS/TTS的预测准确性高于非经典位点(图3C),可能源于训练数据的偏差。

 

图3:人类转录组中非经典开放阅读框的鉴定

跨物种与病毒的适用性

TranslationAI在多种真核生物(如小鼠、斑马鱼、果蝇等)中表现出高预测准确性(图4A),且优于现有工具(如TITER和TIS-predictor)。此外,模型对依赖宿主翻译机制的病毒(如埃博拉病毒)的ORF预测效果良好(图4B),但对SARS-CoV-2等复杂基因组的预测准确性较低(图4C),可能与多顺反子结构有关。

 

图4:TranslationAI精确预测真核生物、原核生物和病毒翻译起始与终止位点

讨论与展望

TranslationAI通过深度学习框架揭示了RNA翻译的复杂调控规则,其成功依赖于对全长mRNA序列的全局分析。模型的局限性包括对非经典起始密码子(如非AUG)的预测不足,以及对组织特异性翻译调控的有限覆盖。未来可通过整合更多实验数据(如多组织Ribo-seq)进一步优化模型。

总之,TranslationAI不仅为翻译调控研究提供了高效工具,还通过其预测结果拓展了对翻译机制的理解,为基因注释和疾病相关变异研究开辟了新途径。

关注我们,获取更多前沿生物信息学研究成果!有什么想法可以在评论区评论,也可以私信获取原文PDF哦!

 

http://www.xdnf.cn/news/6599.html

相关文章:

  • 什么是模态内异质性,什么是模态间异质性?
  • zabbix7.2 zabbix-agent自动注册 被动模式(五)
  • SpringBoot基础(静态资源导入)
  • 观测云产品更新 | 安全监测、事件中心、仪表板AI智能分析等
  • 数据结构与算法--顺序表--单链表
  • python可视化:北方省市GDP与人口变化关系分析4
  • C++二项式定理:原理、实现与应用
  • Rust 数据结构:Vector
  • 学习笔记:黑马程序员JavaWeb开发教程(2025.4.5)
  • FEKO许可证激活错误解决方法
  • 【Ansible基础】Ansible 核心组件深度解析:控制节点、受管节点、Inventory与Playbook
  • 建筑迈向绿色发展之路,楼宇自控成建筑可持续发展关键技术
  • 考研408《计算机组成原理》复习笔记,第二章(2)数值数据的表示和运算(浮点数篇)
  • 2025年大厂C++面试题总结与解析
  • 如何在Windows右键新建菜单中添加自定义项,将notepad添加到新建菜单
  • 黑马程序员C++2024版笔记 第0章 C++入门
  • Web安全科普:构建数字世界的“防盗门”
  • 贪吃蛇游戏消息通知功能开发全解析
  • 变分自编码器(Variational Autoencoder, VAE)
  • GDB的使用
  • TCSVT投稿记录
  • JAVA学习-练习试用Java实现“语音识别的基础 :如使用MFCC特征提取和简单的分类器”
  • Python 类变量与实例变量完全指南:区别、使用场景及常见陷阱
  • Vue 3中ref
  • 实验6 电子邮件
  • 【Java学习笔记】【第一阶段项目实践】零钱通(面向过程版本)
  • Vue3学习(组合式API——生命周期函数基础)
  • 分类预测 | Matlab实现ABC-Transformer人工蜂群算法优化编码器多特征分类预测/故障诊断Matlab实现
  • 抢购Python代码示例与技术解析
  • 1C:ENTERPRISE 8.3 实用开发者指南-示例和标准技术(Session1-Session3)