five

aLLoyM

收藏
arXiv2025-07-30 更新2025-08-01 收录
下载链接:
https://huggingface.co/Playingyoyo/aLLoyM
下载链接
链接失效反馈
官方服务:
资源简介:
aLLoyM是一个专为合金相图预测而设计的语言模型。该数据集来源于东京大学研究生院前沿科学学院,研究人员使用开源的计算相图数据库(CPDDB)和基于CALPHAD(计算相图)的评估数据,对二元和三元相图进行了问答对构建。数据集包含837475个数据点,每个数据点定义了元素组成、温度和对应相名之间的关系。该数据集用于训练aLLoyM模型,该模型能够在没有额外领域知识的情况下,预测之前未探索过的相图,从而加速新材料的发现。

aLLoyM is a language model specifically designed for alloy phase diagram prediction. This dataset originates from the Graduate School of Frontier Sciences, The University of Tokyo. Researchers constructed question-answer pairs for binary and ternary phase diagrams using the open-source Computational Phase Diagram Database (CPDDB) and CALPHAD-based evaluated data. The dataset contains 837,475 data points, each defining the relationship between elemental composition, temperature, and the corresponding phase name. This dataset is used to train the aLLoyM model, which can predict previously unexplored phase diagrams without additional domain knowledge, thereby accelerating the discovery of new materials.
提供机构:
东京大学研究生院前沿科学学院
创建时间:
2025-07-30
搜集汇总
数据集介绍
main_image_url
构建方式
aLLoyM数据集的构建基于计算相图数据库(CPDDB),通过CALPHAD评估方法系统性地生成了二元和三元合金相图的问答对。研究团队从389个二元和38个三元相图的热力学数据库文件中提取数据,采用Pandat软件在200K至5000K温度范围内以50K为间隔进行相图计算,并固定三元体系温度为800K。通过2%的组分增量采样,共生成837,475个数据点,每个数据点包含元素组成、温度及对应相名称的完整关联信息。这些数据被转化为多选和简答两种格式的问答对,并用于微调开源的Mistral大语言模型。
特点
aLLoyM数据集的核心特点体现在其专业性和创新性两个方面。作为首个专注于合金相图预测的大语言模型专用数据集,它完整覆盖了二元和三元体系的相变行为特征数据。数据集通过系统设计的三种问答任务(完整相信息预测、相名称预测和实验条件预测),实现了对相图多维特征的全面表征。特别值得注意的是,该数据集展现出强大的外推能力,模型能够基于训练数据中未出现的新元素组合生成合理的相图预测,这为探索未知材料体系提供了全新范式。数据集还严格区分了内插和外推两种验证模式,为评估模型的泛化性能建立了科学基准。
使用方法
aLLoyM数据集的使用遵循标准化流程,研究者可通过Hugging Face平台获取公开的微调模型和完整基准问答数据集。对于多选任务,用户输入合金组分和温度参数,模型将从候选选项中选择正确的相信息;简答模式则允许开放式预测,模型直接生成相图描述。数据集的三种问答任务可独立或联合使用,其中相名称预测适用于快速相变行为分析,完整相信息预测支持精确的相组成研究,而实验条件预测则为逆向材料设计提供指导。针对复杂的三元体系预测,建议结合温度约束条件以提高结果可靠性。数据集配套的评分标准(精确匹配度、Jaccard相似度和复合准确率)为量化预测质量提供了系统工具。
背景与挑战
背景概述
aLLoyM是由东京大学、法国格勒诺布尔大学及日本国立材料科学研究所等机构的研究团队于2025年共同开发的大型语言模型,专注于合金相图预测领域。该模型基于开源的Mistral架构,通过计算相图数据库(CPDDB)和CALPHAD方法构建的问答对进行微调训练,涵盖837,475个二元及三元合金系统的成分-温度-相态关系数据点。作为首个将LLM技术系统应用于相图预测的研究,aLLoyM突破了传统实验测定和机器学习方法在材料发现效率上的瓶颈,其创新性地生成未知相图的能力为高通量材料设计提供了新范式。
当前挑战
在领域问题层面,aLLoyM需解决相图预测中多组分系统复杂性带来的挑战,特别是三元体系因训练数据不足导致的预测精度下降问题。模型构建过程中面临三大技术难点:一是CALPHAD评估生成的数据需转化为自然语言可处理的Q&A格式,二是短答案生成任务中相名称与实验条件的精确匹配问题,三是模型对中间成分区域复杂相行为的表征能力不足。此外,在预测未知元素组合时,模型对晶体结构的误判现象也揭示了预训练知识与材料科学领域知识的对齐难题。
常用场景
经典使用场景
在材料科学领域,合金相图是理解材料在不同温度和成分下相行为的关键工具。aLLoyM数据集通过精细调整的大型语言模型,专门用于预测二元和三元合金的相图信息。其经典使用场景包括在材料设计和发现过程中,快速预测未知合金系统的相行为,从而加速新材料的开发进程。数据集的应用不仅限于基础研究,还能为工业界的合金设计提供理论支持。
衍生相关工作
aLLoyM数据集的推出激发了多项相关研究,特别是在机器学习与材料科学的交叉领域。例如,基于aLLoyM的模型被用于开发更高效的相图预测工具,如PDGPT和AIPHAD。这些工具进一步扩展了aLLoyM的应用范围,使其在多元合金系统和复杂相图预测中表现出色。此外,aLLoyM的开源特性也促进了更多研究者参与到这一领域的发展中。
数据集最近研究
最新研究方向
在材料科学领域,合金相图的预测一直是材料设计与开发的核心挑战之一。近年来,随着大语言模型(LLMs)在科学计算中的广泛应用,aLLoyM作为一种专门针对合金相图预测的微调模型,展现了其在材料科学中的前沿研究方向。该模型通过结合计算相图数据库(CPDDB)和CALPHAD评估方法,能够高效预测二元和三元合金的相图信息。特别是在短答案生成任务中,aLLoyM表现出对未知合金系统的相图生成能力,为新材料的设计提供了重要工具。这一技术的突破不仅加速了材料发现的进程,还为复杂合金系统的研究开辟了新的路径。
相关研究论文
  • 1
    aLLoyM: A large language model for alloy phase diagram prediction东京大学研究生院前沿科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作