MatTools

Name: MatTools
Creator: 香港大学
Published: 2025-05-16 12:43:05
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://www.kaggle.com/datasets/calvinlyu/mattools/data

下载链接

链接失效反馈

官方服务：

资源简介：

MatTools是一个评估大型语言模型在材料科学工具应用中能力的基准数据集。它由两个互补的组件构成：一个材料模拟工具问答基准，包含69,225个问答对，用于评估LLM对材料科学工具的理解能力；另一个是实际工具使用基准，包含49个任务（138个子任务），要求LLM生成用于材料属性计算的Python代码。数据集旨在帮助开发更有效的AI系统，以解决材料科学和通用科学研究中的问题。

MatTools is a benchmark dataset for evaluating the capabilities of large language models (LLMs) in applications of materials science tools. It comprises two complementary components: one is a materials simulation tool question-answering benchmark containing 69,225 question-answer pairs, designed to assess LLMs' understanding of materials science tools; the other is a practical tool usage benchmark encompassing 49 tasks (138 subtasks), which requires LLMs to generate Python code for materials property calculations. This dataset aims to facilitate the development of more effective AI systems to solve problems in materials science and general scientific research.

提供机构：

香港大学

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

MatTools数据集的构建采用了自动化与专家审核相结合的方法，通过解析pymatgen代码库及其文档生成69,225个问答对，并基于pymatgen-analysis-defects单元测试文件创建了包含49个任务（138个子任务）的真实工具使用基准。该过程利用树形解析器提取测试函数，通过GPT-4o生成问题-属性-验证三元组，并由材料科学博士生进行人工校验，确保了数据集的科学严谨性。

特点

MatTools具有双重基准设计的鲜明特点：其知识问答基准覆盖了材料模拟工具的全面功能理解，而真实工具使用基准则聚焦于Python代码生成能力评估。数据集创新性地采用Docker沙箱实现代码安全执行，支持对LLM生成代码的运行成功率和任务完成率进行量化测评。特别值得注意的是，数据集包含LLM生成文档作为检索源，为研究AI自我知识利用提供了独特视角。

使用方法

使用MatTools时，研究者可通过标准化的Docker环境执行LLM生成的代码，利用内置验证机制自动评估代码功能正确性。对于知识问答基准，采用四选一选择题形式进行模型能力测试；真实工具使用基准则要求模型根据材料科学问题生成可运行代码，并通过多轮反射机制优化输出。数据集支持单LLM测试、检索增强生成（RAG）系统以及复杂代理系统等多种评估模式。

背景与挑战

背景概述

MatTools数据集由香港大学结构材料中心的研究团队于2025年创建，旨在评估大型语言模型在材料科学工具应用中的能力。该数据集基于Python材料基因组计划（pymatgen）代码库，包含69,225个问答对和49个真实工具使用任务，重点解决LLMs在材料模拟代码生成与物理计算中的性能瓶颈问题。作为首个专注于材料科学工具使用的基准测试，MatTools通过自动化数据合成和Docker沙箱安全验证的创新设计，显著推动了AI在计算材料学领域的发展。

当前挑战

MatTools面临的核心挑战体现在两个维度：在领域问题层面，需解决LLMs生成可执行材料模拟代码的准确率不足问题（GPT-4o任务成功率仅18.36%），特别是处理晶体缺陷等复杂物理概念时的逻辑一致性；在构建过程中，挑战包括从单元测试自动生成可靠评估三元组的技术难题，以及平衡代码安全执行与性能评估的复杂需求。此外，领域专用模型（如ChemLLM）在工具理解任务中表现显著落后于通用模型（准确率差距达48%），揭示了专业模型泛化能力的局限性。

常用场景

经典使用场景

MatTools数据集在材料科学领域中被广泛应用于评估大型语言模型（LLMs）在生成和执行基于物理计算的材料科学代码方面的能力。该数据集通过提供材料模拟工具问答（QA）基准和实际工具使用基准，为研究人员提供了一个标准化的框架，用于测试和优化LLMs在材料科学工具应用中的表现。经典使用场景包括测试LLMs对pymatgen代码库和文档的理解能力，以及生成功能性Python代码以计算材料缺陷属性。

衍生相关工作

MatTools数据集已经衍生出多项重要研究工作。基于其基准结果，研究人员开发了自反思LLM-doc RAG代理系统，该系统在任务成功率上显著优于传统的Agentic RAG和GraphRAG方法。该数据集还启发了对LLM生成文档作为检索源的深入研究，证明了AI生成内容在科学工具应用中的优势。此外，MatTools的评估框架和方法已被扩展到其他科学领域的工具使用基准开发中，推动了跨学科的AI辅助科学研究进展。

数据集最近研究