Open Polymer Challenge (OPC)

Name: Open Polymer Challenge (OPC)
Creator: 圣母大学, 威斯康星大学麦迪逊分校, Kaggle
Published: 2025-12-10 02:38:15
License: 暂无描述

arXiv2025-12-10 更新2025-12-11 收录

下载链接：

https://www.kaggle.com/datasets/alexliu99/neurips-open-polymer-prediction-2025-test-data

下载链接

链接失效反馈

官方服务：

资源简介：

Open Polymer Challenge (OPC)数据集是由圣母大学等机构联合发布的首个面向聚合物信息学的社区基准数据集，包含11475种独特的聚合物结构，其中9625种具有至少一种标注性质。数据集涵盖了热导率、回转半径、密度、自由体积分数和玻璃化转变温度等五种关键物理性质，数据通过分子动力学模拟生成。该数据集旨在解决聚合物科学领域缺乏大规模、高质量开放数据的问题，为可持续和节能材料的开发提供新的研究基础。数据集的应用领域包括聚合物性质预测、分子AI以及虚拟筛选流程中的多任务学习。

The Open Polymer Challenge (OPC) dataset is the first community benchmark dataset for polymer informatics, jointly released by the University of Notre Dame and other institutions. It contains 11,475 unique polymer structures, among which 9,625 have at least one annotated property. The dataset covers five key physical properties including thermal conductivity, radius of gyration, density, free volume fraction, and glass transition temperature. The data is generated via molecular dynamics simulations. This dataset aims to address the shortage of large-scale, high-quality open data in the field of polymer science, and provides a new research foundation for the development of sustainable and energy-saving materials. The application scenarios of this dataset include polymer property prediction, molecular AI, and multi-task learning in virtual screening workflows.

提供机构：

圣母大学, 威斯康星大学麦迪逊分校, Kaggle

创建时间：

2025-12-10

搜集汇总

数据集介绍

构建方式

在聚合物信息学领域，高质量数据的稀缺长期制约着机器学习模型的进展。Open Polymer Challenge (OPC) 数据集通过集成分子动力学模拟与自动化流程构建而成，旨在填补这一空白。其构建过程依托于ADEPT（Automated molecular Dynamics Engine for Polymer simulaTions）高通量工作流，首先将聚合物单体以SMILES字符串形式输入，随后通过随机行走聚合算法生成线性链，并在周期性模拟盒子中进行无定形堆积。经过多阶段弛豫与退火处理，系统达到平衡态，进而计算热导率、回转半径、密度、自由体积分数和玻璃化转变温度等五项关键性质。为确保数据的一致性与可复现性，整个流程采用标准化力场参数与自动化脚本，有效避免了人工误差，最终形成了包含近万种独特聚合物结构的基准数据集。

使用方法

该数据集专为聚合物性质的多任务预测而设计，适用于虚拟筛选流程中的关键步骤。使用者通常以聚合物的SMILES字符串或图结构作为输入，构建模型预测五项性质。在具体应用中，参与者需应对数据稀缺与不平衡的挑战，常采用特征工程策略，如结合摩根指纹、RDKit描述符等传统分子特征，并利用迁移学习、自监督预训练等技术增强模型泛化能力。评估采用加权平均绝对误差（wMAE），该指标通过归一化与逆平方根缩放平衡了不同性质尺度与标签数量的影响。数据集已划分为训练集、公开排行榜集与私有排行榜集，其中训练集用于模型开发，而两个排行榜集则用于最终评估，确保了竞赛的公正性与结果的可靠性。

背景与挑战

背景概述

聚合物材料在可持续能源与环境技术中扮演着关键角色，然而其高通量发现长期受制于大规模、高质量开源数据的匮乏。为应对这一瓶颈，由圣母大学、威斯康星大学麦迪逊分校及Kaggle平台的研究团队于2025年共同发起了开放聚合物挑战赛（Open Polymer Challenge, OPC）。该数据集作为首个面向聚合物信息学的社区驱动基准，收录了约一万种聚合物的五种关键物性模拟数据，涵盖热导率、回转半径、密度、自由体积分数与玻璃化转变温度。其核心研究目标在于构建多任务聚合物性质预测模型，为虚拟筛选流程提供可靠的计算基础，从而加速可持续高分子材料的理性设计与发现进程。

当前挑战

该数据集旨在解决聚合物性质预测这一核心领域问题，其面临的主要挑战包括数据规模有限、标签分布不均衡以及多任务异质性带来的建模复杂度。具体而言，数据集中各性质的标注数量差异显著，且数值尺度跨度较大，要求模型具备处理跨尺度、稀疏标注的稳健预测能力。在构建过程中，研究团队遭遇了数据泄露、跨模拟组一致性校验以及分布偏移等工程挑战。例如，早期公开的中间数据被意外复用，导致需重新生成评估集；不同研究组采用的模拟流程与后处理方法（如玻璃化转变温度的线性拟合与双曲线拟合差异）引发了系统性分布偏移，凸显了聚合物模拟数据标准化与质量控制的重要性。

常用场景

经典使用场景

在聚合物信息学领域，数据稀缺长期制约着机器学习模型的开发与应用。Open Polymer Challenge（OPC）数据集通过提供首个大规模、高质量的聚合物基准数据，为多任务聚合物性质预测这一核心研究场景奠定了坚实基础。该数据集涵盖了热导率、回转半径、密度、自由体积分数和玻璃化转变温度等五种关键性质，使得研究者能够在接近真实的约束条件下——包括小样本规模、标签不平衡以及异质模拟来源——系统评估模型的泛化能力与鲁棒性。

解决学术问题

该数据集有效应对了聚合物科学中数据匮乏与质量标准不统一的学术困境。通过集成分子动力学模拟生成的标准化性质标签，OPC为研究者提供了探索数据增强、迁移学习、自监督预训练及集成策略等前沿方法的实验平台。它显著推进了在有限且噪声数据条件下如何实现准确性质预测这一关键科学问题的研究，并为处理跨模拟组的数据分布偏移、单位一致性等实际挑战提供了实证依据与最佳实践指南。

实际应用

在可持续材料研发的实际进程中，OPC数据集支撑了虚拟筛选管线的关键步骤。通过高效预测聚合物的热学、结构与热物理性质，该数据集能够加速高性能分离膜、隔热材料及轻量化聚合物等能源与环境友好型材料的发现周期。其释放的数据生成管线进一步扩展了可模拟性质的范围，为工业界与学术界提供了可复现的计算工具，从而降低了对耗时费力的实验合成的依赖，提升了新材料设计的效率与成功率。

数据集最近研究