CrystalGym

Name: CrystalGym
Creator: 加拿大 CIFAR AI 椅子
Published: 2025-09-27 15:02:14
License: 暂无描述

arXiv2025-09-27 更新2025-10-01 收录

下载链接：

https://github.com/chandarlab/CrystalGym

下载链接

链接失效反馈

官方服务：

资源简介：

CrystalGym 是一个基于 Gymnasium 框架的开源强化学习环境，用于晶态材料的发现。它允许研究者设计并测试强化学习算法，以优化直接从密度泛函理论 (DFT) 获得的奖励。数据集包含不同类型的晶体结构，并通过 DFT 计算评估其性质。该数据集旨在促进未来在优化耗时奖励信号方面的新任务的研究。

CrystalGym is an open-source reinforcement learning environment based on the Gymnasium framework for crystalline material discovery. It enables researchers to design and test reinforcement learning algorithms to optimize rewards directly derived from Density Functional Theory (DFT). This dataset contains various types of crystal structures, whose properties are evaluated via DFT calculations. This dataset aims to facilitate future research on novel tasks involving the optimization of time-consuming reward signals.

提供机构：

加拿大 CIFAR AI 椅子

创建时间：

2025-09-27

搜集汇总

数据集介绍

构建方式

在材料科学领域，CrystalGym通过构建基于强化学习的开放式环境，将晶体材料设计转化为序列决策问题。该数据集采用确定性马尔可夫决策过程框架，从Materials Project数据库中筛选立方晶体结构作为初始状态，智能体通过逐步骤选择元素填充原子位点完成晶体构建。每个回合结束时，通过预设参数的密度泛函理论计算直接评估晶体性质，并将计算结果转化为奖励信号，形成完整的强化学习闭环。

特点

CrystalGym的突出特点在于其深度融合了材料科学与强化学习的前沿需求。数据集提供三种关键晶体性质（带隙、体模量和密度）的优化目标，并设计了基于绝对距离与指数距离的差异化奖励函数。其行动空间采用分层设计，包含18至50种元素的可扩展子集，有效平衡了探索效率与计算可行性。环境支持单晶结构与混合结构两种训练模式，并集成Gymnasium标准接口，为跨领域研究提供了高度模块化的实验平台。

使用方法

使用CrystalGym时，研究者可通过指定目标性质与初始晶体结构快速启动实验流程。环境自动处理晶体图结构表示与DFT计算流程，用户仅需调用标准强化学习算法与图神经网络策略。针对不同研究目标，可通过调整行动空间规模、目标值分布和结构采样策略实现任务难度梯度控制。该环境特别适用于研究耗时奖励信号下的强化学习算法，并为材料生成与多目标优化提供了可复现的基准测试框架。

背景与挑战

背景概述

CrystalGym数据集于2025年由Chandar研究实验室、Mila魁北克人工智能研究所与英特尔等机构联合发布，聚焦于材料科学领域的强化学习应用。该数据集通过构建基于密度泛函理论（DFT）计算的开源强化学习环境，旨在解决晶体材料设计中直接利用DFT信号优化材料属性的核心问题。其创新性在于将晶体成分设计建模为序列决策过程，推动了材料发现与人工智能的跨学科融合，为半导体、能源存储等工业应用提供了新型研究范式。

当前挑战

该数据集需应对两大挑战：在领域问题层面，需优化带隙、体模量与密度等复杂属性，但DFT计算存在系统性低估带隙、收敛困难等问题，导致奖励信号噪声显著；在构建过程中，面临DFT计算的高耗时性限制训练效率，以及晶体化学空间组合爆炸带来的探索复杂性，同时需平衡动作空间规模与DFT计算失败率的矛盾。

常用场景

经典使用场景

在材料科学领域，CrystalGym数据集作为首个专注于晶体材料发现的强化学习基准环境，其经典应用场景体现在为研究社区提供标准化的测试平台。该环境将晶体成分优化构建为序列决策问题，研究人员通过训练强化学习智能体在固定晶格结构中逐步填充原子位置，最终利用密度泛函理论直接计算能带隙、体弹模量和密度等关键性能指标作为奖励信号。这种设计使得不同强化学习算法能够在统一的框架下进行性能比较，有效解决了以往研究中因问题建模方式不统一导致的评估困难。

衍生相关工作

基于CrystalGym数据集已衍生出多个重要研究方向：在算法层面，研究者对比了PPO、DQN、Rainbow和SAC等主流强化学习算法在晶体生成任务中的表现，揭示了价值类算法在复杂化学空间探索中的优势；在模型架构方面，研究探索了图神经网络与大型语言模型的结合，如基于LLaMA-3的监督微调与强化学习微调混合方法；同时，该环境还催生了针对昂贵奖励信号的专用算法研究，以及多目标优化、熵正则化方法等新兴课题，为材料发现与强化学习的交叉领域开辟了丰富的研究路径。

数据集最近研究