sqa_reranking_eval

Name: sqa_reranking_eval
Creator: Allen Institute for AI
Published: 2025-04-15 13:36:55
License: 暂无描述

Hugging Face2025-04-15 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/allenai/sqa_reranking_eval

下载链接

链接失效反馈

官方服务：

资源简介：

ScholarQA Reranking Eval数据集用于评估用于科学问答检索/重排的模型或技术。该数据集中的问题来源于真实研究人员、计算机相关领域的Stack exchange社区以及通过提示LLM生成的合成问题。每个问题都有以markdown格式编写的段落文本和论文Semantic Scholar id，以及从0到3（数字越大表示越相关）的 relevance标签，这些标签是由GPT-4o获得的。

提供机构：

Allen Institute for AI

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

在科学问答领域，高质量的检索与重排序模型评估至关重要。ScholarQA Reranking Eval数据集通过多源问题构建，涵盖真实研究者提问、计算相关领域Stack Exchange社区问题以及大语言模型生成的合成问题。每个问题关联多段Markdown格式文本段落，并标注了基于GPT-4o生成的0-3级相关性分数（3为最相关），同时提供Semantic Scholar论文ID作为学术溯源依据。数据标注过程严格遵循客观性标准，最终形成包含24,300条样本的评估集合。

特点

该数据集以科学问答场景为核心特色，其标注体系具有显著优势。相关性标签呈现金字塔分布（0-3级样本量分别为78,187/64,785/65,805/8,067），精准模拟真实检索场景中的信息分布。所有文本段落均保留原始Markdown格式，完整呈现学术文献中的数学公式、代码块等特殊元素。配套提供的Semantic Scholar论文ID构建了可扩展的学术图谱关联，为多模态研究预留接口。基准测试涵盖8种主流重排序模型，包括bge-reranker-v2-m3、jina-reranker-v2-base等，nDCG@10最高达0.927。

使用方法

该数据集专为评估检索系统在学术场景的性能而设计。使用者可通过加载标准数据分割（仅含train集）进行端到端测试，利用question-passage对和预置相关性标签计算nDCG@10、mRR等指标。对于模型开发，建议结合Markdown文本特性设计特征提取器，并参考提供的baseline模型超参数配置。高级应用可基于corpus_id关联Semantic Scholar元数据，构建增强型学术检索系统。官方代码库ai2-scholarqa-lib提供完整的数据加载和评估脚本实现。

背景与挑战

背景概述

ScholarQA Reranking Eval数据集由艾伦人工智能研究所（Allen Institute for AI）主导构建，旨在评估科学问答系统中的检索与重排序模型性能。该数据集整合了来自真实研究者、计算相关领域Stack Exchange社区以及大型语言模型生成的合成问题，形成了多元化的科学问题集合。每个问题关联的段落文本以Markdown格式呈现，并附有基于GPT-4o标注的0-3级相关性标签，为科学文献检索的精准度评估提供了细粒度基准。数据集的构建反映了当前学术信息检索领域对跨模态、多来源知识整合的需求，其发布的基线模型性能指标（如nDCG@10和mRR）为后续研究提供了重要参照。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题层面，科学问答的复杂性导致检索结果相关性评估困难，如专业术语歧义性、跨学科知识融合需求等，现有标注体系（0-3级）对弱相关段落区分度不足；构建过程层面，多源数据（人工提问、社区讨论、LLM生成）的质量一致性控制具有挑战性，且GPT-4o标注的可靠性需依赖提示工程优化，标注成本与效率的平衡成为关键制约因素。此外，学术文本特有的数学公式、图表等非结构化内容在Markdown格式下的标准化处理也增加了数据处理复杂度。

常用场景

经典使用场景

在科学问答系统中，sqa_reranking_eval数据集被广泛用于评估检索和重排序模型的性能。该数据集通过整合来自真实研究者、Stack Exchange社区以及大型语言模型生成的合成问题，构建了一个多样化的科学问题库。每个问题关联的段落文本和相关性标签为模型优化提供了精确的基准，特别适用于测试模型在复杂科学语境下的理解与排序能力。

衍生相关工作

围绕该数据集，研究者已开展了一系列经典工作。例如，基于bge-reranker-v2-m3和mxbai-rerank-large-v1等模型的性能对比研究，为轻量化重排序算法的设计提供了重要参考。此外，数据集还被用于探索跨领域问答系统的迁移学习能力，衍生出多篇顶会论文，持续推动着学术检索技术的发展。

数据集最近研究