MatTools

github2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/Grenzlinie/MatTools

下载链接

链接失效反馈

官方服务：

资源简介：

MatTools是一个用于测试大型语言模型在材料科学工具使用能力的基准数据集，包含34,621个QA对和34,604个文档QA对，以及49个问题（138个任务）的实际工具使用基准测试。

MatTools is a benchmark dataset for evaluating the tool-use capabilities of large language models in materials science. It contains 34,621 general QA pairs, 34,604 document-based QA pairs, as well as a practical tool-use benchmark that includes 49 questions covering 138 tasks.

创建时间：

2025-05-14

原始信息汇总

MatTools 数据集概述

数据集基本信息

名称：MatTools
类型：材料科学工具使用能力评估基准
用途：测试大型语言模型(LLMs)在材料科学工具使用方面的能力
相关论文：arXiv:2505.10852

数据集组成

基准测试部分

pymatgen_code_qa基准
- 文件路径：qa_benchmark/generated_qa/generation_results_code.json
- 数据量：34,621个问答对
pymatgen_code_doc基准
- 文件路径：qa_benchmark/generated_qa/generation_results_doc.json
- 数据量：34,604个问答对
真实世界工具使用基准
- 文件路径：src/question_segments
- 数据量：49个问题(138个任务)
- 结构：每个子文件夹包含一个问题陈述、属性列表和验证代码

环境配置要求

Python版本：3.13
包管理工具：Conda和Poetry
依赖安装方式： bash conda create -n mattools python=3.13 conda activate mattools poetry install

或使用requirements.txt安装

测试方法

QA基准测试

解压基准文件
配置API密钥(Gemini或HuggingFace)
修改settings.py中的测试配置
运行测试脚本

真实世界工具使用基准测试

配置API密钥(OpenAI和Gemini)
生成向量存储
配置Docker沙箱
可选择测试：
- 单一LLM
- LLM-RAG(不同检索源)
- 高级RAG代理
- LightRAG
- 自反思LLM-RAG代理系统

数据重现方法

固定pymatgen和pymatgen-analysis-defects版本
使用RepoAgent生成pymatgen文档
生成QA基准
生成真实世界工具使用基准

引用信息

bibtex @misc{MatTools, title={MatTools: Benchmarking Large Language Models for Materials Science Tools}, author={Siyu Liu and Jiamin Xu and Beilin Ye and Bo Hu and David J. Srolovitz and Tongqi Wen}, year={2025}, eprint={2505.10852}, archivePrefix={arXiv}, primaryClass={cond-mat.mtrl-sci}, url={https://arxiv.org/abs/2505.10852}, }

搜集汇总

数据集介绍

构建方式

MatTools数据集的构建采用了多阶段系统化方法，通过RepoAgent工具自动生成pymatgen库的文档结构，并利用Gemini-2.0模型解析代码文件生成结构化知识。QA基准测试包含34,621对代码问答和34,604对文档问答，通过自动化流程生成并经过人工校验。真实场景工具使用测试则包含49个材料科学问题，细分为138个具体任务，每个问题均配备问题陈述、属性列表和验证代码，形成完整的评估单元。

特点

该数据集最显著的特点是构建了材料科学领域首个系统化评估框架，同时包含知识问答和实际工具操作两类测试维度。QA基准采用双重验证机制，既测试模型对代码实现的理解，也考察文档解析能力。真实场景测试则创新性地设计了包含问题生成、代码验证和结果分析的完整工作流，通过Docker容器实现自动化验证。数据集还提供了不同检索增强生成(RAG)架构的对比测试方案，包括基础RAG、智能代理系统和轻量级RAG等多种配置。

使用方法

使用该数据集需配置Python3.13环境和必要依赖库，通过修改settings.py文件设置测试参数。QA基准测试通过运行testing_script.py启动，支持本地和远程模型两种测试模式。真实场景测试提供五种评估方案：单模型测试需依次运行build_agent.py和result_analysis.py；RAG系统测试需预先构建向量数据库；高级代理系统则通过main.py启动完整工作流。所有测试结果均自动生成标准化评估报告，包含执行日志和CSV格式的详细指标。验证阶段通过Docker容器确保环境一致性，测试代码自动生成独立容器进行隔离验证。

背景与挑战

背景概述

MatTools数据集由Siyu Liu等研究人员于2025年推出，旨在系统评估大语言模型在材料科学工具应用中的能力。该数据集由pymatgen代码问答基准和真实世界工具使用基准两部分构成，分别包含34,621对问答数据和49个实际问题任务。作为材料信息学与人工智能交叉领域的重要基准，MatTools填补了专业领域工具能力评估的空白，为材料科学领域的智能化工具开发提供了标准化测试平台。数据集依托pymatgen等开源材料分析工具构建，其创新性的评估框架推动了材料科学领域大模型应用研究的发展。

当前挑战

MatTools面临的领域挑战主要体现在材料科学工具使用的复杂性上：专业代码理解需要兼顾API文档解析与材料学知识，多步骤计算任务要求模型保持严格的逻辑一致性，而物性计算结果的验证则需要处理科学计算特有的数值精度问题。在构建过程中，研究团队需克服专业领域数据稀缺的困难，通过设计自动化问答生成流程创建大规模评估数据；同时建立可靠的代码执行验证环境，确保测试结果的可复现性；此外还需平衡问题难度分布，使基准既能反映真实应用场景又具备区分不同模型能力的灵敏度。

常用场景

经典使用场景

在材料科学领域，MatTools数据集被广泛用于评估大型语言模型（LLMs）在处理材料科学工具相关任务时的能力。通过其包含的问答对和真实世界工具使用基准，研究人员能够系统地测试模型在代码生成、文档理解以及实际工具应用中的表现。这一数据集为材料科学与人工智能的交叉研究提供了标准化的测试平台。

解决学术问题

MatTools数据集解决了材料科学领域中大型语言模型评估的标准化问题。通过提供大量高质量的问答对和真实任务场景，该数据集帮助研究人员量化模型在材料科学工具使用中的准确性和效率。其意义在于填补了材料科学领域缺乏专门评估工具的空白，为后续研究提供了可靠的数据支持。

衍生相关工作

围绕MatTools数据集，已经衍生出多项经典研究工作。例如，基于其问答基准的模型性能对比研究，以及结合检索增强生成（RAG）技术的改进方法。这些工作不仅验证了数据集的实用性，还推动了材料科学领域人工智能应用的进一步发展，为后续研究提供了丰富的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集