five

Mat-Instructions

收藏
github2025-10-24 更新2025-11-22 收录
下载链接:
https://github.com/AI4MOL/Mat-Instruction
下载链接
链接失效反馈
官方服务:
资源简介:
Mat-Instructions是一个大规模无机材料指令数据集,专门设计用于释放大型语言模型在材料科学中的潜力。该数据集包含高质量的、多样化的、基于指令的数据,用于指导模型理解和预测材料的结构、性质和功能。通过在LLaMA模型上使用该数据集进行微调的广泛实验证明了其在推动材料科学进步方面的有效性。

Mat-Instructions is a large-scale inorganic material instruction dataset specifically designed to unlock the potential of large language models (LLMs) in materials science. This dataset contains high-quality, diverse instruction-based data to guide models in understanding, predicting the structure, properties and functions of materials. Extensive fine-tuning experiments conducted on the LLaMA model using this dataset have demonstrated its effectiveness in advancing materials science.
创建时间:
2025-10-24
原始信息汇总

Mat-Instructions 数据集概述

数据集名称

Mat-Instructions: A Large-Scale Inorganic Material Instruction Dataset for Large Language Models

研究背景

  • 大语言模型在材料科学等科学学科的研究发现中带来了革命性进展
  • 新型材料(特别是晶体材料)的发现对实现可持续发展目标至关重要
  • 目前缺乏高质量、多样化、基于指令的数据集来充分发挥大语言模型在材料研究中的潜力

数据集目标

专门设计用于释放大语言模型在材料科学中的潜力,通过指令数据集指导模型理解和预测材料的结构、性质和功能

数据集特点

  • 大规模无机材料指令数据集
  • 高质量
  • 多样化
  • 基于指令

实验验证

通过在Mat-Instruction数据集上微调LLaMA的广泛实验,证明了该数据集在推动材料科学进展方面的有效性

相关链接

  • 项目页面:https://ai4mol.github.io/projects/Mat-Instruction/
  • 论文:https://doi.org/10.24963/ijcai.2025/1089

开发状态

  • ✅ 已发布主要代码和数据集
  • [ ] 重构代码结构并发布评估流程
  • [ ] 添加预训练模型

引用信息

bibtex @inproceedings{ijcai2025p1089, title = {Mat-Instructions: A Large-Scale Inorganic Material Instruction Dataset for Large Language Models}, author = {Liu, Ke and Gao, Shangde and Fu, Yichao and Wu, Xiaoliang and Tong, Shuo and Rajan, Ajitha}, booktitle = {Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence, {IJCAI-25}}, publisher = {International Joint Conferences on Artificial Intelligence Organization}, editor = {James Kwok}, pages = {9799--9807}, year = {2025}, month = {8}, note = {AI and Social Good}, doi = {10.24963/ijcai.2025/1089}, url = {https://doi.org/10.24963/ijcai.2025/1089}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在材料科学领域,高质量数据集的匮乏制约了大语言模型在无机材料研究中的深入应用。Mat-Instructions通过系统整合晶体结构数据库与材料属性文献,构建了覆盖材料结构-性质-功能三元关系的指令数据集。该构建过程采用多源数据融合策略,将晶体对称性、能带结构与热力学参数等专业特征转化为自然语言描述,并通过专家验证确保数据标注的准确性。
特点
该数据集展现出三大核心特征:其规模覆盖了主流无机材料体系,指令类型涵盖材料分类、性质预测与结构生成等多元任务;数据维度融合了晶体学特征与物化参数,形成跨尺度的材料表征体系;指令设计采用人类专家与算法协同标注模式,既保证了专业术语的规范性,又维持了自然语言的流畅性。这种特征组合为材料领域的多任务学习提供了理想基准。
使用方法
研究人员可通过下载发布的完整数据集包,直接用于大语言模型的指令微调任务。典型流程包括加载预训练语言模型权重,将材料指令数据转换为模型可接受的输入格式,并采用全参数微调或参数高效微调策略进行训练。对于特定下游任务,可依据材料体系或属性类型对数据集进行子集划分,实现定向性能优化。实验表明该数据集能有效提升模型在材料发现与设计任务中的推理能力。
背景与挑战
背景概述
在材料科学领域,晶体材料的发现对实现可持续发展目标具有关键意义,尤其在气候变化缓解、清洁能源开发及工业创新方面。随着大语言模型在科研领域的广泛应用,其在材料研究中的潜力日益凸显。Mat-Instructions数据集由国际人工智能联合会议于2025年正式发布,由Liu等人联合构建,旨在解决材料科学中高质量指令数据的缺失问题。该数据集通过系统整合无机材料的结构、属性与功能信息,为大语言模型提供了专门化的训练基础,显著提升了材料预测与分析的准确性,推动了人工智能与材料科学的交叉融合。
当前挑战
材料科学领域长期面临材料结构与性能关系复杂、预测精度不足的挑战,传统方法难以高效处理多尺度材料数据。Mat-Instructions在构建过程中需克服数据多样性与质量平衡的难题,包括从异构来源整合可靠的材料指令、确保数据标注的学科专业性,以及适应大语言模型对结构化与非结构化数据的统一处理需求。这些挑战直接影响模型在材料发现任务中的泛化能力与实用价值。
常用场景
经典使用场景
在材料科学领域,Mat-Instructions数据集被广泛应用于大语言模型的指令微调过程,特别是在无机材料的结构与性能预测任务中。通过提供高质量的指令数据,该数据集能够引导模型深入理解晶体材料的组成、性质及其功能关联,从而在材料发现与设计中发挥关键作用。
解决学术问题
该数据集有效解决了材料科学中缺乏高质量、多样化指令数据的瓶颈问题,为大语言模型在材料结构解析、性能预测及功能设计等研究任务提供了可靠支撑。其意义在于推动了人工智能在可持续材料开发中的应用,助力气候变化缓解、清洁能源创新等重大科学目标的实现。
衍生相关工作
基于Mat-Instructions数据集,已衍生出多项针对无机材料智能设计的经典工作,例如对LLaMA模型的领域适配微调研究。这些工作进一步拓展了数据在跨任务材料预测、多模态材料表征等方向的应用,形成了材料信息学与人工智能融合的创新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作