MSQA

Name: MSQA
Creator: 乔治亚理工学院
Published: 2025-05-30 04:22:57
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://github.com/jerry3027/MSQA

下载链接

链接失效反馈

官方服务：

资源简介：

MSQA是一个用于评估大型语言模型（LLMs）在材料科学领域的知识推理和复杂推理能力的综合评估基准。该数据集包含1757个研究生级别的材料科学问题，分为详细解释性回答和二元真/假评估两种格式。MSQA通过要求LLMs在七个材料科学子领域中同时具备精确的事实知识和多步推理能力来挑战它们。通过使用10种最先进的LLMs进行实验，我们发现当前LLMs在性能上存在显著差距。MSQA代表了第一个联合评估LLMs的事实和推理能力的基准，这对于高级材料科学中的LLMs至关重要。

MSQA is a comprehensive evaluation benchmark for assessing the knowledge reasoning and complex reasoning capabilities of large language models (LLMs) in the field of materials science. This dataset contains 1757 graduate-level materials science questions, divided into two formats: detailed explanatory answers and binary true/false assessments. MSQA challenges LLMs by requiring them to possess both precise factual knowledge and multi-step reasoning capabilities across seven subfields of materials science. Through experiments conducted with 10 state-of-the-art LLMs, we found that there is a significant performance gap among current LLMs. MSQA represents the first benchmark that jointly evaluates the factual and reasoning capabilities of LLMs, which is critical for LLMs in advanced materials science.

提供机构：

乔治亚理工学院

创建时间：

2025-05-30

原始信息汇总

MSQA数据集概述

数据集基本信息

名称：MSQA
数据量：1757个问答对
存储文件：data/MSQA_Dataset.json
关联论文：MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge

数据结构

每个条目包含以下字段：

question：长形式问题
answer：长形式答案
topic：GPT-4o生成的论文摘要总结，包含：
- 论文目的
- 目的分类（方法或结果）
- 候选问题
source：原始论文DOI
source_section：生成答案的原始论文章节
question_type：长形式问题的类型（共7种）
true_false_question：二元形式问题
true_false_question_answer：二元问题答案（YES/NO）

数据集特点

领域：材料科学
问题级别：研究生水平
问题类型：包含长形式问答和二元问答
数据来源：学术论文

处理流程

生成流程：
- 候选答案生成（使用GPT-4o、Gemini-2.0-pro、Deepseek v3）
- 候选答案合并
- 二元问题生成
评估流程：
- 基线模型推理
- 使用GPT-4o或基于规则的方法进行评估

搜集汇总

数据集介绍

构建方式

MSQA数据集的构建依托于材料科学领域的高质量文献资源，通过多阶段流程确保问题与答案的科学严谨性。研究团队从七家主要出版机构的240万篇文献中筛选出3000篇代表性论文，采用句子嵌入和K-means聚类技术实现学科分布的均衡覆盖。问题生成阶段利用GPT-4o对论文摘要进行关键发现提炼，并根据研究目标分类（方法类/结果类）生成候选问题。答案合成环节创新性地采用多模型共识机制，聚合GPT-4o、Gemini-2.0-pro和Deepseek-v3的生成结果，并通过正则表达式过滤、关键词匹配和专家标注三级质量验证体系确保数据可靠性。

特点

该数据集包含1757个研究生级别的材料科学问题，创新性地采用双模态评估体系：详细解释型答案要求模型展示多步推理能力，覆盖结构-性能关系、合成工艺等7个子领域；二元判断题则聚焦材料特性的精准判断。问题设计深度结合材料科学特有的认知范式，如通过TPEC聚集体的尺寸效应问题考察受限空间对分子排列的影响机制。数据统计分析显示，问题平均长度19词，长答案平均150词，且通过MatSciBERT嵌入可视化证实了答案涵盖聚合物、无机配合物等多样化的材料体系。

使用方法

使用MSQA时需要区分两种评估模式：对于解释型问题，可采用GPT-4o作为评判模型，依据黄金标准答案评估生成内容的完整性（正确/基本正确/错误）；二元判断任务则通过精确匹配'YES'/'NO'关键词计算准确率。建议采用检索增强生成策略，利用BM25算法从方法学与结果章节检索相关段落作为上下文。实验表明，商业闭源模型在直接生成模式下可达84.5%准确率，而开源模型如Deepseek-R1-distilled-Llama3通过检索增强可获得26.2%的性能提升。需特别注意领域专用模型可能存在分布偏移导致的性能下降问题。

背景与挑战

背景概述

MSQA数据集由乔治亚理工学院的研究团队于2025年推出，旨在填补材料科学领域缺乏评估大语言模型（LLMs）专业知识和复杂推理能力的空白。该数据集包含1,757个研究生级别的材料科学问题，涵盖结构-性能关系、合成过程、计算建模等七个子领域，采用详细解释性回答和二元真/假评估两种形式。MSQA的创建基于3,000篇精选材料科学文献，通过三阶段质量保证流程确保问题与答案的科学性和准确性。该数据集首次联合评估了LLMs在高级材料科学中关键的事实知识和推理能力，为领域内模型开发提供了重要基准。

当前挑战

MSQA面临的挑战主要体现在两个方面：领域问题的复杂性和数据集构建的技术难度。在领域层面，材料科学问题常涉及多步骤推理和跨学科知识整合，要求模型同时具备精确的事实掌握和复杂的逻辑推导能力，现有LLMs在聚合物合成路径推导和结构-性能定量关系等任务中表现欠佳。构建过程中，研究团队需克服专业术语歧义性（如‘TPEC聚集体的蓝移现象’）、实验数据与理论模型的语义对齐，以及通过检索增强生成技术解决领域知识覆盖不足的问题。此外，合成数据生成存在事实准确性验证困难，需依赖专家标注和统计过滤来消除LLMs产生的科学事实幻觉。

常用场景

经典使用场景

MSQA数据集在材料科学领域的大语言模型评估中展现出其独特价值，尤其在测试模型对复杂科学概念的理解和推理能力方面。该数据集通过1757道研究生水平的材料科学问题，涵盖结构-性能关系、合成工艺、计算建模等七个子领域，为评估模型在专业领域的知识深度和逻辑推理能力提供了标准化测试平台。其双模态设计（详细解释性回答与二元判断）能够全面考察模型从基础事实掌握到高阶推理的多维度能力。

实际应用

在实际应用层面，MSQA为材料科学研究提供了智能化辅助工具的开发基准。其问题设计模拟了真实科研场景中的复杂决策过程，如多步合成路线规划、材料性能预测等关键任务。制药和材料研发企业可利用该基准优化专业领域语言模型，提升文献分析、实验设计等环节的效率。数据集中关于结构转变、性能关联等专业问题的评估框架，已被应用于新型材料发现平台的算法优化。

衍生相关工作

MSQA的发布催生了一系列材料科学领域的衍生研究。基于其评估框架，研究者开发了Honeybee等专业领域微调模型，通过迭代训练提升材料科学任务表现。该数据集的问题生成方法论被扩展应用于化学、物理等相邻学科基准构建，如Mol-Instructions分子设计数据集。其创新的三阶段质量保证机制（正则过滤-LLM优化-专家标注）也成为合成数据生成领域的重要参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集