当前位置: 首页 > ops >正文

Protein FID:AI蛋白质结构生成模型评估新指标

一、引言:蛋白质生成模型面临的评估挑战

近年来,AI驱动的蛋白质结构生成模型取得了令人瞩目的进展,但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准,但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而,尽管最先进的模型在当前评估指标上表现卓越,但它们在实际设计应用中的成功率仍然相对有限。例如,有研究报告显示生成结构的实验成功率仅为3%,而计算机模拟评分却远高于此。

MIT CSAIL的Felix Faltings等研究人员在论文《Protein FID: Improved Evaluation of Protein Structure Generative Models》中提出了一个革命性的评估指标——Protein FID (Frechet Inception Distance),该指标能够在有意义的潜在空间中衡量分布相似性,为蛋白质结构生成模型的评估提供了新的视角。

二、现有评估指标的局限性

目前,蛋白质设计领域最常用的体外评估指标包括可设计性(designability)、新颖性(novelty)和多样性(diversity)。

可设计性指的是一个结构是否存在一个能够折叠成该结构的序列。在实践中,可设计性是通过生成基于给定结构的序列,然后检查这些序列是否能够折叠回原始结构来评估的。多样性则通过考察模型生成的输出之间的差异性来评估,通常是通过查看输出空间中不同聚类的数量。而新颖性则检查模型产生的记忆样本的数量。

然而,这些指标都没有捕捉到模型对训练数据中代表的设计空间的采样情况。例如,一个模型可能会生成高度多样化、新颖且可设计的蛋白质,但却从不生成任何β折叠结构,而β折叠结构可能对解决某些设计问题至关重要。事实上,许多生成模型被观察到过度采样α螺旋,而牺牲了其他二级结构。如下图所示,即使是在PDB数据库中的天然蛋白质,其可设计性也只有80%左右,远低于当前生成模型声称的接近99%的可设计性。

图片

图1:PDB蛋白质的可设计性。按长度划分的PDB条目中可设计结构的比例,包括由ProteinMPNN设计的序列和天然序列。红色水平线表示整个集合的平均值。

由图1可见,在所有长度范围内,约有四分之一的PDB结构不被认为是可设计的。即使对于较短的蛋白质,可设计性也远低于生成模型所达到的水平,而当考虑原生蛋白质序列而不是由ProteinMPNN生成的序列时,这个数字甚至更低。这表明像Multiflow这样声称在类似长度范围内达到99%可设计性的最先进蛋白质结构生成模型可能过度优化了这一指标。

参考链接:https://mp.weixin.qq.com/s/-4DMDXmpc-QAHE2OKHk-QQ

http://www.xdnf.cn/news/15868.html

相关文章:

  • axios二次封装-单个、特定的实例的拦截器、所有实例的拦截器。
  • Apache基础配置
  • C语言:深入理解指针(2)
  • 《汇编语言:基于X86处理器》第8章 复习题和练习,编程练习
  • Spring Cloud Gateway高危隐患
  • MySQL—表设计和聚合函数以及正则表达式
  • 2024年全国青少年信息素养大赛Scratch算法创意实践挑战赛 小高组 初赛 真题
  • Python适配器模式详解:让不兼容的接口协同工作
  • 【LeetCode数据结构】单链表的应用——环形链表问题详解
  • 详解Mysql索引合并
  • LeetCode 3202.找出有效子序列的最大长度 II:取模性质(动态规划)
  • lvs调度算法(10种)
  • TCL --- 列表_part1
  • 基于FPGA实现ARINC818
  • RocketMQ核心编程模型
  • 自动找客户软件有那些?
  • 【Linux性能优化】常用工具和实战指令
  • 深入理解浏览器解析机制和XSS向量编码
  • 在Ubutu22系统上面离线安装Go语言环境【教程】
  • 《P2680 [NOIP 2015 提高组] 运输计划》
  • RPG62.制作敌人攻击波数二:攻击ui
  • 不只是“能用”:从语义化到 ARIA,打造“信息无障碍”Web 应用的实战清单
  • 在vue中遇到Uncaught TypeError: Assignment to constant variable(常亮无法修改)
  • ubuntu24.04安装CUDA和VLLM
  • #SVA语法滴水穿石# (014)关于链式蕴含的陷阱
  • 学习C++、QT---30(QT库中如何自定义控件(自定义按钮)讲解)
  • Python桌面版数独(二版)-增加4X4、6X6
  • 元宇宙经济的四个要素
  • python 字典中取值
  • SpringBoot的配置文件