LLM4Mat-Bench

Name: LLM4Mat-Bench
Creator: 普林斯顿大学
Published: 2024-11-01 03:48:12
License: 暂无描述

arXiv2024-11-01 更新2024-11-06 收录

下载链接：

https://github.com/vertaix/LLM4Mat-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

LLM4Mat-Bench是由普林斯顿大学和多伦多大学等机构创建的用于评估大型语言模型在材料属性预测中的性能的数据集。该数据集包含约197万条晶体结构数据，来自10个公开的材料数据源，涵盖45种不同的材料属性。数据集通过多种输入模态（如晶体组成、CIF文件和晶体文本描述）进行描述，总共有4.7M、615.5M和3.1B个tokens。数据集的创建过程包括从多个公开数据库中收集CIF文件和材料属性，并使用Robocrystallographer生成晶体结构的文本描述。LLM4Mat-Bench旨在解决材料科学中的属性预测和材料发现问题，通过提供多样化的材料表示和大规模的训练数据，推动任务特定预测模型和指令微调LLMs的发展。

LLM4Mat-Bench is a dataset developed by institutions including Princeton University, the University of Toronto, and others, for evaluating the performance of large language models (LLMs) in materials property prediction tasks. This dataset contains approximately 1.97 million crystal structure entries sourced from 10 public materials data repositories, covering 45 distinct material properties. The dataset supports multiple input modalities, such as crystal compositions, CIF files, and textual descriptions of crystal structures, with cumulative token counts reaching 4.7M, 615.5M, and 3.1B respectively. The construction of this dataset involves collecting CIF files and material property data from multiple public databases, and generating textual descriptions of crystal structures using Robocrystallographer. LLM4Mat-Bench aims to tackle property prediction and materials discovery challenges in materials science, and advance the development of task-specific prediction models and instruction-tuned LLMs by providing diverse material representations and large-scale training data.

提供机构：

普林斯顿大学

创建时间：

2024-11-01

原始信息汇总

LLM4Mat-Bench 数据集概述

数据集简介

LLM4Mat-Bench 是目前用于评估大型语言模型（LLMs）在材料属性预测性能方面最大的基准数据集。

数据获取

数据集可从以下链接下载：LLM4Mat-Bench 数据集。
每个数据集包含固定的训练/验证/测试分割，以确保可重复性和公平的模型比较。

数据结构

数据集包含多个子数据集，每个子数据集包含以下内容：

训练集
验证集
测试集

数据集使用

安装与环境配置

bash git clone https://github.com/vertaix/LLM4Mat-Bench.git cd LLM4Mat-Bench conda create -n <environment_name> requirement.txt conda activate <environment_name>

数据存储

下载的数据应存储在 data/ 目录下，其中 LLM4Mat-Bench 是父目录。

模型检查点

从以下链接下载 LLM-Prop 和 MatBERT 的检查点：检查点下载链接。
将检查点文件夹保存到 LLM4Mat-Bench 目录中。

数据集评估

评估训练好的 LLM-Prop 和 MatBERT

通过修改 evaluate.sh 脚本来评估模型： bash bash scripts/evaluate.sh

从头训练 LLM-Prop 和 MatBERT

通过修改 train.sh 脚本来训练模型： bash bash scripts/train.sh

使用 LLaMA2-7b-chat 模型生成属性值

通过修改 llama_inference.sh 脚本来生成属性值： bash bash scripts/llama_inference.sh

评估 LLaMA 结果

在运行 llama_inference.sh 后，通过修改 llama_evaluate.sh 脚本来评估结果： bash bash scripts/llama_evaluate.sh

数据许可

数据集的许可归属于每个数据集/数据库的原始创建者。

排行榜

总体性能

输入	模型	MP (回归)	MP (分类)	JARVIS-DFT (回归)	GNoME (回归)	hMOF (回归)	Cantor HEA (回归)	JARVIS-QETB (回归)	OQMD (回归)	QMOF (回归)	SNUMAT (分类)	SNUMAT (回归)	OMDB (回归)
CIF	CGCNN (baseline)	5.319	0.846	7.048	19.478	2.257	17.780	61.729	14.496	3.076	1.973	0.722	2.751
Comp.	Llama 2-7b-chat:0S	0.389	0.491	Inval.	0.164	0.174	0.034	0.188	0.105	0.303	0.940	Inval.	0.885
Comp.	Llama 2-7b-chat:5S	0.627	0.507	0.704	0.499	0.655	0.867	1.047	1.160	0.932	1.157	0.466	1.009
Comp.	MatBERT-109M	5.317	0.722	4.103	12.834	1.430	6.769	11.952	5.772	2.049	1.828	0.712	1.554
Comp.	LLM-Prop-35M	4.394	0.691	2.912	15.599	1.479	8.400	59.443	6.020	1.958	1.509	0.719	1.507

MP 数据集结果

输入	模型	FEPA	Bandgap	EPA	Ehull	Efermi	Density	Density Atomic	Volume	Is Stable	Is Gab Direct
CIF	CGCNN (baseline)	8.151	3.255	7.224	3.874	3.689	8.773	5.888	1.703	0.882	0.810
Comp.	Llama 2-7b-chat:0S	0.008	0.623	0.009	0.001	0.003	0.967	0.754	0.747	0.500	0.482
Comp.	Llama 2-7b-chat:5S	0.33	1.217	0.239	0.132	0.706	0.899	0.724	0.771	0.502	0.512
Comp.	MatBERT-109M	8.151	2.971	9.32	2.583	3.527	7.626	5.26	3.099	0.764	0.681
Comp.	LLM-Prop-35M	7.482	2.345	7.437	2.006	3.159	6.682	3.523	2.521	0.746	0.636

JARVIS-DFT 数据集结果

输入	模型	FEPA	Bandgap (OPT)	Tot. En.	Ehull	Bandgap (MBJ)	Kv	Gv	SLME	Spillage	ε<sub>x</sub> (OPT)	ε (DFPT)	Max. Piezo. (dij)	Max. Piezo. (eij)	Max. EFG	Exf. En.	Avg. m<sub>e</sub>	n-Seebeck	n-PF	p-Seebeck	p-PF
CIF	CGCNN (baseline)	13.615	4.797	22.906	1.573	4.497	3.715	2.337	1.862	1.271	2.425	1.12	0.418	1.291	1.787	0.842	1.796	2.23	1.573

搜集汇总

数据集介绍

构建方式

LLM4Mat-Bench数据集通过整合来自10个公开可用材料数据源的约190万种晶体结构构建而成，涵盖了45种不同的材料属性。数据收集过程包括从各数据源获取晶体信息文件（CIF）、材料组成和材料属性，并通过API和直接下载链接进行数据采集。为了增强大型语言模型（LLMs）的输入适应性，使用Robocrystallographer工具从CIF文件中生成更具描述性的晶体结构文本。这一过程确保了数据集的多样性和广泛性，同时优化了LLMs在材料属性预测任务中的表现。

使用方法

LLM4Mat-Bench数据集可用于微调不同规模的LLMs，如LLM-Prop和MatBERT，并提供零样本和少样本提示以评估模型性能。使用者可以通过固定训练-验证-测试分割和精心设计的提示模板，确保实验的可重复性。数据集的多样化输入模态和广泛的任务覆盖使其成为评估和提升LLMs在材料科学中应用的有效工具，特别是在材料属性预测和材料发现领域。

背景与挑战

背景概述

随着大型语言模型（LLMs）在自然语言处理和科学任务中的显著成功，科学家们开始利用这些模型解决材料科学中的重要且具有挑战性的问题，包括材料性质预测和新材料的发现。然而，针对基于LLM的材料性质预测的标准化评估和基准测试仍处于初级阶段，这阻碍了该领域的进展。为此，普林斯顿大学和多伦多大学的研究团队于2024年11月推出了LLM4Mat-Bench数据集，这是迄今为止最大的用于评估LLMs在晶体材料性质预测性能的基准数据集。该数据集包含约190万个晶体结构，涵盖45种不同的性质，并从10个公开的材料数据源中收集。LLM4Mat-Bench的推出旨在通过提供一个全面的评估平台，推动LLMs在材料科学中的应用，特别是在材料性质预测和发现方面。

当前挑战

LLM4Mat-Bench数据集在构建和应用过程中面临多项挑战。首先，数据集的构建涉及从多个公开数据源中收集和整合大量晶体结构数据，这需要克服数据异质性和格式不一致的问题。其次，生成晶体结构的文本描述时，需要使用Robocrystallographer等工具，确保生成的文本既准确又适合LLMs处理。此外，数据集的多样性和规模使得模型训练和评估变得复杂，尤其是在处理不同输入模态（如晶体组成、CIF文件和文本描述）时。最后，尽管LLM4Mat-Bench提供了丰富的数据和任务，但如何有效地利用这些数据进行模型微调和评估，仍是一个需要深入研究的领域。这些挑战不仅涉及技术层面，还包括如何确保评估的公正性和结果的可重复性。

常用场景

经典使用场景

LLM4Mat-Bench数据集在材料科学领域中被广泛用于评估大型语言模型（LLMs）在预测晶体材料属性方面的性能。该数据集通过包含约190万个晶体结构和45种不同的属性，提供了多模态输入（如晶体组成、CIF文件和晶体文本描述），使得研究者能够对LLMs进行细调和评估。经典的使用场景包括使用LLM4Mat-Bench来微调不同规模的模型，如LLM-Prop和MatBERT，并通过零样本和少样本提示来评估LLM-chat类模型的属性预测能力，如Llama、Gemma和Mistral。

解决学术问题

LLM4Mat-Bench数据集解决了材料科学领域中缺乏标准化评估和基准测试的问题，这些问题阻碍了LLMs在该领域的进展。通过提供大规模、多源的数据集，LLM4Mat-Bench使得研究者能够系统地评估和比较不同LLMs在材料属性预测任务中的表现。这不仅有助于识别通用LLMs在材料科学中的局限性，还强调了开发任务特定预测模型和指令调优LLMs的必要性，从而推动了材料属性预测和材料发现领域的研究进展。

实际应用

在实际应用中，LLM4Mat-Bench数据集被用于开发和优化能够预测晶体材料属性的机器学习模型。这些模型可以应用于材料设计、发现和优化过程中，帮助科学家和工程师快速筛选和预测具有特定性能的材料。例如，通过使用LLM4Mat-Bench训练的模型，研究人员可以更高效地预测新材料的电子、弹性和热力学属性，从而加速新材料的设计和开发周期。

数据集最近研究