当前位置: 首页 > ops >正文

facebook开源分子化学数据集和模型(OMol25)论文速读

《The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models》论文解析

一、研究背景与目标

  • 分子化学对现代社会多个领域至关重要,如医药、能源等。计算化学,尤其是DFT方法,已成为分子设计和机理研究的关键工具,但其计算复杂度限制了大规模筛选和长时间尺度模拟的应用。

  • 机器学习模型(MLIPs)作为DFT的替代方法,能以较低的计算成本实现接近DFT的精度。然而,现有分子数据集在化学多样性、系统大小和精度方面存在不足,限制了MLIPs的性能提升。

二、研究方法

OMol25数据集构建

  • 数据集组成:OMol25包含超过1亿个DFT单点计算,涵盖83种元素、多种分子系统(如小分子、生物分子、金属复合物和电解质)、不同的电荷/自旋状态、显式溶剂化、反应性结构等。数据集规模宏大,计算成本高达60亿CPU核心小时。

  • 数据集领域:数据集涵盖生物分子、金属复合物、电解质和社区数据集等领域。例如,生物分子部分包括蛋白质-配体、蛋白质-蛋白质、核酸等相互作用;金属复合物部分通过Architector软件生成多样化的三维结构;电解质部分则通过分子动力学模拟和MLIP-MD方法生成结构。

评估任务设计

  • 评估任务类型:包括蛋白-配体相互作用能量和力的评估、配体应变能评估、构象评估、质子化能评估、未优化的电离能/电子亲和能和自旋间隙评估、距离缩放评估等。

  • 评估指标:如MAE(平均绝对误差)、RMSD(均方根偏差)等,用于衡量模型在能量预测、力预测、构象优化等方面的表现。

基线模型训练

  • 模型选择:包括eSEN、GemNet-OC和MACE等模型,这些模型是当前equivariant和invariant模型的代表性示例。

  • 训练细节:如模型输入包含总电荷和自旋信息、多步训练过程(先低精度后高精度)、不同模型的超参数设置等。

三、实验结果与分析

数据集特性

  • 原子数量:从2到350不等,平均为50个原子。

  • 电荷与自旋:电荷范围从-10到+10,自旋多重性从1到11。

  • 数据分布:数据集按领域划分,包括生物分子、金属复合物、电解质和社区数据集等,每个领域的数据量和原子数量分布各有特点。

基线模型性能

  • 总体性能:在不同测试集上,模型在能量和力预测方面的MAE指标表现良好,如eSEN-md模型在All数据集上的能量MAE为1.20 meV/atom,力MAE为12.34 meV/Å。

  • 不同领域的性能差异:生物分子和中性有机物的性能较好,而金属复合物和电解质的性能相对较差,这表明模型在不同化学领域存在性能差异。

  • 模型对比:GemNet-OC在某些情况下优于eSEN-md,但在其他情况下则相反,说明不同模型架构对性能有影响。

评估任务结果

  • 蛋白-配体相互作用:模型在预测相互作用能量和力方面表现出色,但仍有改进空间。

  • 配体应变能:模型在预测应变能和全局最小结构方面表现良好。

  • 构象评估:模型在预测构象能量差异和优化构象方面具有一定准确性,但在长距离相互作用的预测上存在挑战。

  • 质子化能:模型在预测质子化能和结构方面存在较大误差,表明在处理不同质子化状态的结构时存在困难。

  • 电离能/电子亲和能和自旋间隙:模型在预测金属复合物的不同电荷和自旋状态之间的能量和力差异方面误差较大,这表明在处理涉及电荷和自旋变化的系统时需要更复杂的模型架构和方法。

四、研究结论与展望

  • OMol25数据集是首个覆盖主要化学领域(无机、有机、生物化学)的高精度数据集,其规模、多样性和复杂性显著提升了分子DFT数据集的水平。

  • 基线模型在OMol25上的表现证明了MLIPs在广泛化学任务中的高精度潜力,但在电离能/电子亲和能、自旋间隙和长距离相互作用等任务上仍存在显著差距。

  • 未来工作包括扩展评估任务(如自由能和反应性任务)、发布公共排行榜以激励社区创新,以及利用OMol25数据集推动MLIPs在预训练、特定领域训练或微调等方面的应用。

五、核心技术汇总

在这里插入图片描述

http://www.xdnf.cn/news/6873.html

相关文章:

  • 典籍知识问答模块AI问答bug修改
  • 机器学习——逻辑回归
  • Mipsel固件Fuzzing小记
  • 计算机图形学编程(使用OpenGL和C++)(第2版)学习笔记 12.曲面细分
  • AUTOSAR图解==>AUTOSAR_SWS_HWTestManager
  • STM32H7时钟树
  • 开源语音-文本基础模型和全双工语音对话框架 Moshi 介绍
  • OTA与boot loader
  • 北大:基于因果的LLM形式化推理
  • 进阶-数据结构部分:3、常用查找算法
  • NVC++ 介绍与使用指南
  • 很啰嗦,再次总结 DOM
  • CAPL Class: TcpSocket (此类用于实现 TCP 网络通信 )
  • 使用教程:8x16模拟开关阵列可级联XY脚双向导通自动化接线
  • Vue-键盘事件
  • Elasticsearch Fetch阶段面试题
  • 1.2 C++第一个程序
  • WORD个人简历单页326款模版分享下载
  • win32相关(字符编码)
  • 2025年PMP 学习十八 第11章 项目风险管理 (11.5~11.7)
  • 【读代码】端到端多模态语言模型Ultravox深度解析
  • 【2025年软考中级】第一章1.6 安全性、可靠性、性能评价
  • LabVIEW光谱信号仿真与数据处理
  • 中间网络工程师知识点5
  • 【单机版OCR】清华TH-OCR v9.0免费版
  • 模型量化AWQ和GPTQ哪种效果好?
  • 【vscode】解决vscode无法安装远程服务器插件问题,显示正在安装
  • Linux内存管理相关
  • 【C/C++】C++中constexpr与const的深度对比
  • OGG 更新表频繁导致进程中断,见鬼了?非也!