five

Open Molecules 2025 (OMol25)|分子化学数据集|机器学习数据集

收藏
arXiv2025-05-14 更新2025-05-15 收录
分子化学
机器学习
下载链接:
https://huggingface.co/facebook/OMol25
下载链接
链接失效反馈
资源简介:
OMol25是一个大规模的数据集,包含超过1亿个密度泛函理论(DFT)计算,涵盖83种元素,广泛的化学多样性和结构多样性,包括小分子、生物分子、金属络合物和电解质。数据集的构建是为了解决机器学习模型在分子化学中的准确性和多样性问题,通过提供高水平的DFT理论计算,旨在推动分子化学领域的研究。
提供机构:
FAIR at Meta
创建时间:
2025-05-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
Open Molecules 2025 (OMol25) 数据集通过密度泛函理论(DFT)在ωB97M-V/def2-TZVPD理论水平上进行了超过1亿次计算,涵盖了83种元素,包括小分子、生物分子、金属配合物和电解质等多种分子系统。数据集的构建采用了多种采样技术,如经典和基于MLIP的分子动力学(MD)以及构象采样,确保了元素、化学和结构多样性的广泛覆盖。此外,数据集还重新计算了多个现有数据集,以确保一致的DFT理论水平。
特点
OMol25数据集的特点在于其前所未有的规模和多样性,包含超过1亿个DFT计算,系统大小从2到350个原子不等,电荷范围从-10到+10,自旋多重度从1到11。数据集独特地融合了元素、化学和结构多样性,包括分子内和分子间相互作用、显式溶剂化、可变电荷/自旋、构象体和反应性结构。此外,数据集还提供了能量、力、部分电荷和自旋方案、轨道能量、Fock矩阵、密度等多种性质。
使用方法
OMol25数据集可用于训练分子化学的机器学习模型,特别是在原子模拟中作为DFT的替代品。数据集提供了训练、验证和测试分割,以确保一致的评估。用户可以利用基线模型和全面的模型评估集来开发下一代分子化学的ML模型。数据集的使用方法包括下载公开数据、利用提供的基线模型进行训练和评估,以及参与社区开发的公共排行榜以推动模型创新。
背景与挑战
背景概述
Open Molecules 2025 (OMol25)是由Meta FAIR团队于2025年推出的一个大规模分子化学数据集,旨在解决机器学习在原子模拟中面临的数据缺乏问题。该数据集包含超过1亿个密度泛函理论(DFT)计算,覆盖了83种元素,涵盖了小分子、生物分子、金属配合物和电解质等多种分子系统。OMol25的创建是为了提供广泛的化学多样性,包括分子内和分子间相互作用、显式溶剂化、可变电荷/自旋状态、构象异构体和反应性结构等。该数据集的计算水平为ωB97M-V/def2-TZVPD,代表了数十亿CPU核心小时的计算量。OMol25的发布为开发下一代分子化学机器学习模型提供了重要的资源。
当前挑战
OMol25数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决分子化学中机器学习模型训练数据的缺乏问题,特别是在广泛的化学多样性和高精度要求下的数据生成。传统的小规模数据集(如QM9和MD-17)仅覆盖有限的原子类型和化学多样性,无法满足现代机器学习模型的需求。2) 构建过程中的挑战:构建如此大规模的数据集需要克服极高的计算成本,尤其是在高精度DFT理论水平下进行计算。此外,确保数据集中的元素、化学和结构多样性,同时保持电荷和自旋状态的准确性,也是一个复杂的挑战。数据集还需要处理大量系统的优化和质量控制,确保计算结果的可靠性和一致性。
常用场景
经典使用场景
Open Molecules 2025 (OMol25) 数据集在计算化学和机器学习领域具有广泛的应用场景。作为一个包含超过1亿个密度泛函理论(DFT)计算的大规模数据集,OMol25特别适用于训练和评估机器学习原子间势能(MLIPs)模型。其经典使用场景包括分子动力学模拟、药物设计中的蛋白质-配体相互作用研究、催化剂设计中的金属配合物反应性预测,以及电解质溶液中的离子行为模拟。数据集的高精度和广泛化学多样性使其成为开发下一代分子化学模型的理想选择。
衍生相关工作
OMol25数据集已经衍生出多项重要研究工作。基于该数据集开发的基准模型包括eSEN、GemNet-OC和MACE等,这些模型在分子能量和力预测方面表现出色。数据集还促进了新型评估任务的创建,如配体应变能计算、构象排序和质子化能量预测等。此外,OMol25为金属配合物反应性、电解质界面效应等专门领域的研究提供了数据基础。相关工作还包括开发考虑长程相互作用的改进模型架构,以及探索电荷和自旋状态对分子性质影响的深入研究。
数据集最近研究
最新研究方向
近年来,Open Molecules 2025 (OMol25) 数据集在计算化学和机器学习领域引起了广泛关注。该数据集以其前所未有的规模和多样性,为开发高精度分子间势能面(MLIPs)提供了重要支持。OMol25 包含了超过1亿个密度泛函理论(DFT)计算,涵盖了83种元素、多样的分子间相互作用、显式溶剂化效应、可变电荷/自旋态以及反应性结构,为机器学习模型提供了全面的训练数据。前沿研究方向包括:1) 开发能够处理复杂电荷和自旋态的机器学习模型;2) 改进长程相互作用的建模方法;3) 探索在生物分子、金属配合物和电解质等领域的应用。该数据集的发布推动了分子模拟领域的创新,特别是在药物设计、催化剂开发和电池材料研究等热点领域产生了深远影响。
相关研究论文
  • 1
    The Open Molecules 2025 (OMol25) Dataset, Evaluations, and ModelsFAIR at Meta · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录