Mat-Instructions
收藏Mat-Instructions 数据集概述
数据集名称
Mat-Instructions: A Large-Scale Inorganic Material Instruction Dataset for Large Language Models
研究背景
- 大语言模型在材料科学等科学学科的研究发现中带来了革命性进展
- 新型材料(特别是晶体材料)的发现对实现可持续发展目标至关重要
- 目前缺乏高质量、多样化、基于指令的数据集来充分发挥大语言模型在材料研究中的潜力
数据集目标
专门设计用于释放大语言模型在材料科学中的潜力,通过指令数据集指导模型理解和预测材料的结构、性质和功能
数据集特点
- 大规模无机材料指令数据集
- 高质量
- 多样化
- 基于指令
实验验证
通过在Mat-Instruction数据集上微调LLaMA的广泛实验,证明了该数据集在推动材料科学进展方面的有效性
相关链接
- 项目页面:https://ai4mol.github.io/projects/Mat-Instruction/
- 论文:https://doi.org/10.24963/ijcai.2025/1089
开发状态
- ✅ 已发布主要代码和数据集
- [ ] 重构代码结构并发布评估流程
- [ ] 添加预训练模型
引用信息
bibtex @inproceedings{ijcai2025p1089, title = {Mat-Instructions: A Large-Scale Inorganic Material Instruction Dataset for Large Language Models}, author = {Liu, Ke and Gao, Shangde and Fu, Yichao and Wu, Xiaoliang and Tong, Shuo and Rajan, Ajitha}, booktitle = {Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence, {IJCAI-25}}, publisher = {International Joint Conferences on Artificial Intelligence Organization}, editor = {James Kwok}, pages = {9799--9807}, year = {2025}, month = {8}, note = {AI and Social Good}, doi = {10.24963/ijcai.2025/1089}, url = {https://doi.org/10.24963/ijcai.2025/1089}, }




