colabfit/OPoly26-val
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/colabfit/OPoly26-val
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files: "co/*.parquet"
- config_name: info
data_files: "ds.parquet"
license: other
tags:
- molecular dynamics
- mlip
- interatomic potential
pretty_name: OPoly26-val
---
### <details><summary>Cite this dataset </summary>Levine, D. S., Liesen, N., Chua, L., Diffenderfer, J., Ingolfsson, H. I., Kroonblawd, M. P., Kumar, N., Maiti, A., Mohottalalage, S. S., Shuaibi, M., Essen, B. V., Wood, B. M., Zitnick, C. L., Blau, S. M., and Antoniuk, E. R. _OPoly26-val_. ColabFit, 2026. https://doi.org/None</details>
#### This dataset has been curated and formatted for the ColabFit Exchange
#### This dataset is also available on the ColabFit Exchange:
https://materials.colabfit.org/id/DS_oinzbpqoh8c8_0
#### Visit the ColabFit Exchange to search additional datasets by author, description, element content and more.
https://materials.colabfit.org
<br><hr>
# Dataset Name
OPoly26-val
### Description
Validation set of the Open Polymers 2026 (OPoly26) dataset. OPoly26 contains over 6.57 million density functional theory (DFT) calculations on cluster fragments of up to 360 atoms derived from polymeric systems. The dataset encompasses variations in monomer composition, polymerization degree, chain architectures, and solvation environments to improve machine learning model performance for polymer property prediction. Calculations were performed at the B97M-V/def2-SVP level of theory using ORCA.
### Dataset authors
Daniel S. Levine, Nicholas Liesen, Lauren Chua, James Diffenderfer, Helgi I. Ingolfsson, Matthew P. Kroonblawd, Nitesh Kumar, Amitesh Maiti, Supun S. Mohottalalage, Muhammed Shuaibi, Brian Van Essen, Brandon M. Wood, C. Lawrence Zitnick, Samuel M. Blau, Evan R. Antoniuk
### Publication
https://doi.org/10.48550/arXiv.2512.23117
### Original data link
https://huggingface.co/facebook/OMol25
### License
FAIR Chemistry License
### Number of unique molecular configurations
210302
### Number of atoms
37298046
### Elements included
Al, B, Br, C, Ca, Cl, Co, Cs, Cu, F, Fe, H, I, K, La, Li, Mg, N, Na, Ni, O, P, S, Sr, Zn
### Properties included
energy, atomic forces
<br>
<hr>
# Usage
- `ds.parquet` : Aggregated dataset information.
- `co/` directory: Configuration rows each include a structure, calculated properties, and metadata.
- `cs/` directory : Configuration sets are subsets of configurations grouped by some common characteristic. If `cs/` does not exist, no configurations sets have been defined for this dataset.
- `cs_co_map/` directory : The mapping of configurations to configuration sets (if defined).
<br>
#### ColabFit Exchange documentation includes descriptions of content and example code for parsing parquet files:
- [Parquet parsing: example code](https://materials.colabfit.org/docs/how_to_use_parquet)
- [Dataset info schema](https://materials.colabfit.org/docs/dataset_schema)
- [Configuration schema](https://materials.colabfit.org/docs/configuration_schema)
- [Configuration set schema](https://materials.colabfit.org/docs/configuration_set_schema)
- [Configuration set to configuration mapping schema](https://materials.colabfit.org/docs/cs_co_mapping_schema)
configs:
- config_name: default
data_files: "co/*.parquet"
- config_name: info
data_files: "ds.parquet"
license: other
tags:
- molecular dynamics(分子动力学)
- mlip
- interatomic potential(原子间势)
pretty_name: OPoly26-val
---
### <details><summary>引用此数据集</summary>Levine, D. S.、Liesen, N.、Chua, L.、Diffenderfer, J.、Ingolfsson, H. I.、Kroonblawd, M. P.、Kumar, N.、Maiti, A.、Mohottalalage, S. S.、Shuaibi, M.、Essen, B. V.、Wood, B. M.、Zitnick, C. L.、Blau, S. M. 及 Antoniuk, E. R.:*OPoly26-val*。ColabFit,2026。https://doi.org/None</details>
#### 本数据集已针对 ColabFit 交换平台完成整理与格式化
#### 本数据集亦可在 ColabFit 交换平台获取:
https://materials.colabfit.org/id/DS_oinzbpqoh8c8_0
#### 访问 ColabFit 交换平台,可按作者、描述、元素组成等维度检索其他数据集。
https://materials.colabfit.org
<br><hr>
# 数据集名称
OPoly26-val
### 数据集描述
本数据集为Open Polymers 2026(OPoly26)数据集的验证集。OPoly26包含超过657万份密度泛函理论(density functional theory, DFT)计算数据,样本源自聚合体系衍生的、原子数最多达360的团簇片段。该数据集涵盖单体组成、聚合度、链结构与溶剂化环境的多种变化,旨在提升用于聚合物性质预测的机器学习模型性能。所有计算均通过ORCA软件,在B97M-V/def2-SVP理论水平下完成。
### 数据集作者
Daniel S. Levine、Nicholas Liesen、Lauren Chua、James Diffenderfer、Helgi I. Ingolfsson、Matthew P. Kroonblawd、Nitesh Kumar、Amites Maiti、Supun S. Mohottalalage、Muhammed Shuaibi、Brian Van Essen、Brandon M. Wood、C. Lawrence Zitnick、Samuel M. Blau、Evan R. Antoniuk
### 发表文献
https://doi.org/10.48550/arXiv.2512.23117
### 原始数据链接
https://huggingface.co/facebook/OMol25
### 许可证
FAIR Chemistry License
### 唯一分子构型数量
210302
### 原子总数
37298046
### 包含元素
Al、B、Br、C、Ca、Cl、Co、Cs、Cu、F、Fe、H、I、K、La、Li、Mg、N、Na、Ni、O、P、S、Sr、Zn
### 包含属性
能量(energy)、原子受力(atomic forces)
<br>
<hr>
# 使用说明
- `ds.parquet`:聚合后的数据集信息文件。
- `co/` 目录:该目录下的每个配置行均包含分子结构、计算属性与元数据。
- `cs/` 目录:配置集是按共同特征分组的构型子集。若不存在`cs/`目录,则说明本数据集未定义任何配置集。
- `cs_co_map/` 目录:构型与配置集的映射文件(若已定义)。
<br>
#### ColabFit 交换平台文档包含Parquet文件解析的相关说明与示例代码:
- [Parquet解析:示例代码](https://materials.colabfit.org/docs/how_to_use_parquet)
- [数据集信息架构](https://materials.colabfit.org/docs/dataset_schema)
- [构型架构](https://materials.colabfit.org/docs/configuration_schema)
- [配置集架构](https://materials.colabfit.org/docs/configuration_set_schema)
- [配置集-构型映射架构](https://materials.colabfit.org/docs/cs_co_mapping_schema)
提供机构:
colabfit
搜集汇总
数据集介绍

构建方式
OPoly26-val数据集是Open Polymers 2026(OPoly26)的验证子集,旨在评估机器学习模型在聚合物性质预测中的泛化能力。该数据集基于对源自聚合物体系的团簇片段进行的密度泛函理论(DFT)计算构建而成,计算级别为B97M-V/def2-SVP,使用ORCA软件完成。数据集包含210,302个独特的分子构型,原子总数高达37,298,046,覆盖了从单体组成、聚合度、链结构到溶剂环境的多样化学空间,以确保模型能够捕捉聚合物体系中的复杂相互作用。
特点
OPoly26-val涵盖了25种化学元素,包括Al、B、Br、C、Ca、Cl、Co、Cs、Cu、F、Fe、H、I、K、La、Li、Mg、N、Na、Ni、O、P、S、Sr、Zn等,体现了丰富的元素多样性。该数据集提供每个构型的能量和原子受力信息,为力场模型的训练与验证提供了关键物理属性。作为验证集,它专注于评估模型在未见聚合物构型上的表现,具有严格的基准测试性质,是推动机器学习原子间势能(MLIP)发展的重要资源。
使用方法
OPoly26-val以Parquet格式存储,其中ds.parquet文件包含汇总的数据集信息,co/目录存放每个构型的具体结构、计算属性及元数据。用户可通过ColabFit Exchange提供的解析代码直接读取Parquet文件,并利用数据集架构文档理解字段含义。该数据集适用于开发与测试聚合物体系的机器学习原子间势能模型,支持能量和受力回归任务的性能评估,同时可结合配置集(cs/)与映射信息进行分组分析,以满足不同研究场景的需求。
背景与挑战
背景概述
OPoly26-val数据集由Daniel S. Levine等来自多所机构的研究人员于2026年创建,是Open Polymers 2026(OPoly26)的验证集。该数据集旨在应对聚合物体系机器学习潜力开发中的数据匮乏挑战,通过超过657万次密度泛函理论(DFT)计算,覆盖了多达360个原子的团簇碎片,系统性地考虑了单体组成、聚合度、链架构及溶剂环境的变化。OPoly26-val作为验证集,精选210,302个独特构型,包含近3730万个原子以及25种元素,能量和原子力作为关键属性,为聚合物性质预测提供了高质量的基准,在材料科学和机器学习交叉领域具有重要影响力。
当前挑战
该数据集面临的挑战首先在于聚合物体系的复杂性:聚合物链的构象多样性、长程相互作用以及溶剂效应使得传统DFT计算成本高昂,亟需高效且准确的机器学习替代模型。构建过程中,研究者需平衡计算精度与规模,采用B97M-V/def2-SVP理论水平以获取可靠数据,同时应对超过20种元素(包括Al、Co、Li等金属元素)的复杂化学环境。此外,验证集的设计需要确保其代表性和无偏性,以有效评估模型在未见构型上的泛化能力,这对数据采样策略和计算资源分配提出了严峻考验。
常用场景
经典使用场景
OPoly26-val作为分子动力学与机器学习势函数领域的专用验证集,其核心价值在于为聚合物材料的多尺度模拟提供高保真度基准。研究者借助该数据集,能够系统评估机器学习原子间势(MLIP)模型对复杂聚合物体系能量与原子力的预测精度。该验证集包含超过21万种独立分子构型,涵盖从单体到高阶聚合物的多样链结构、共聚组成及溶剂化环境,从而严格检验模型在未训练构型空间中的泛化能力。经典使用范式包括:训练基于等变图神经网络(如NequIP、MACE)或消息传递网络(如GemNet)的势函数,随后在OPoly26-val上计算能量与力均方根误差,并与传统力场(如GAFF、OPC)及AI驱动的力场(如ANI、M3GNet)进行对比,从而确立模型在聚合物体系中的可靠性。
衍生相关工作
OPoly26-val的发布催生了一系列具有里程碑意义的后续研究。一方面,它作为ColabFit平台的核心基准之一,激发了针对聚合物体系的新型模型架构探索,如等变Transformer(如EquiformerV2)在有机共聚物能量分界面预测上的参数微调策略。另一方面,该验证集与OMol25(有机分子)数据集形成互补,衍生出跨尺度迁移学习框架——即先在大规模有机分子上预训练通用势函数,再通过OPoly26-val进行聚合物特化蒸馏,显著降低了少样本场景下的过拟合风险。此外,基于该验证集的误差分析,研究者提出了针对长程范德华力与氢键的修正残差网络(如PaiNN+),并在高聚物链末端效应、交联密度影响等专题中发表了多项对比基准。这些工作共同构建了从数据到算法再到物理理解的闭环,推动机器学习势函数向材料科学实际应用纵深演进。
数据集最近研究
最新研究方向
OPoly26-val作为OPoly26数据集的验证子集,汇聚了超过657万次的密度泛函理论计算,覆盖了由26种元素构成的聚合物体系,其研究前沿聚焦于利用机器学习势函数精准预测聚合物性质。在材料科学领域,聚合物因其复杂的链结构、多样的单体组成和溶剂环境而成为计算模拟的难点,而该数据集通过提供高达360原子的团簇碎片计算数据,为训练和验证新一代机器学习力场提供了关键基准。与OMol25等数据集一脉相承,OPoly26-val的出现响应了近年来高分子材料基因组学中对高保真、高覆盖度训练数据的迫切需求,特别是在加速聚合物电解质、热固性树脂及功能性高分子的理性设计中具有深远意义,推动了从DFT电子结构到宏观性能预测的跨尺度建模进程。
以上内容由遇见数据集搜集并总结生成



