rq-bench

Name: rq-bench
Creator: Deep Cognition and Language Research (DeCLaRe) Lab
Published: 2026-05-29 11:00:12
License: 暂无描述

Hugging Face2026-05-29 更新2026-05-30 收录

下载链接：

https://huggingface.co/datasets/declare-lab/rq-bench

下载链接

链接失效反馈

官方服务：

资源简介：

RQ-Bench是一个基准数据集，用于评估语言模型基于背景文献提出研究问题的能力。它旨在填补现有评估空白，直接测试模型识别研究问题的能力，这是真实研究中先于想法生成的关键步骤。数据集包含1,434个研究问题，这些问题是基于746篇真实arXiv论文（目标论文）的动机和贡献框架提取而来，而非事后虚构。每个研究问题都与其引用的参考文献全文配对，这些参考文献是目标论文作为动机引用的先前工作。数据集要求模型仅基于引用的参考文献，预测出具体、可回答且基于这些参考文献所暴露差距的研究问题，然后与真实的研究问题进行比较。数据集包含两个主要部分：rq_dataset.jsonl文件包含研究问题记录及其元数据，cited_papers/目录包含1,375篇引用参考文献的全文（按章节组织）。研究问题覆盖13个计算机科学子领域（如cs.RO、cs.CV、cs.CL等），目标论文主要来自2025-2026年，降低了预训练语言模型的数据污染风险。每个研究问题记录包含唯一标识符、问题文本、源论文元数据（如标题、子领域、新颖性类型、主要想法、问题陈述等）以及基于引用文献的差距分析信息。该数据集主要用于基准测试研究问题生成、科学构思和文献基础推理模型，也可用于科学助手的微调/偏好学习，以及研究引用基础的差距分析。数据集的局限性包括仅涵盖计算机科学领域、目标论文时间偏近期、引用论文的章节结构可变，且研究问题是通过LLM辅助流程从论文框架中提取而非作者直接撰写。

RQ-Bench is a benchmark dataset for evaluating the ability of language models to propose research questions based on background literature. It aims to fill existing evaluation gaps by directly testing models capability to identify research questions, a key step preceding idea generation in real research. The dataset contains 1,434 research questions extracted from the motivation and contribution frameworks of 746 real arXiv papers (target papers), rather than being fabricated post-hoc. Each research question is paired with the full text of its cited references, which are prior works cited by the target paper as motivation. The dataset requires models to predict specific, answerable research questions based solely on the cited references, exposing gaps in these references, and then compare them with the actual research questions. It consists of two main parts: the rq_dataset.jsonl file contains research question records and their metadata, and the cited_papers/ directory contains the full text of 1,375 cited references (organized by sections). The research questions cover 13 computer science subfields (e.g., cs.RO, cs.CV, cs.CL), with target papers primarily from 2025-2026, reducing the risk of data contamination in pre-trained language models. Each research question record includes a unique identifier, question text, source paper metadata (e.g., title, subfield, novelty type, main idea, problem statement), and gap analysis information based on the cited literature. The dataset is primarily used for benchmarking research question generation, scientific ideation, and literature-grounded reasoning models, as well as for fine-tuning/preference learning in scientific assistants and studying gap analysis in citation-based research. Limitations include coverage limited to computer science, recent target paper dates, variable section structures in cited papers, and research questions extracted via an LLM-assisted process from paper frameworks rather than being directly authored.

提供机构：

Deep Cognition and Language Research (DeCLaRe) Lab

创建时间：

2026-05-29

原始信息汇总

RQ-Bench 数据集概述

基本信息

数据集名称：RQ-Bench (A Benchmark for Grounded Research Question Generation)
许可证：MIT License
语言：英语
任务类型：文本生成、问答
数据集规模：1K < n < 10K
标签：研究问题生成、科学推理、大语言模型评估、基准、新颖性、文献综述

数据集核心目标

RQ-Bench 用于评估语言模型能否阅读背景文献，并提出与人类作者实际研究的科研问题相似的问题。每个样本将真实 arXiv 论文中提炼出的研究问题（ground-truth RQ）与目标论文引用的先前工作文献全文配对，模型仅依据引用文献预测研究问题。

数据集规模与统计

统计项	数值
研究问题总数	1,434
目标论文数	746
唯一引用文献数	1,375
引用论文 JSON 文件数	1,375
计算机学子领域数	13
新颖性类型	3种（方法型 / 应用型 / 组合型）

各子领域问题分布

cs.RO: 245
cs.CV: 222
cs.CL: 173
cs.LG: 162
cs.AI: 146
cs.SD: 115
cs.IR: 92
cs.CR: 75
cs.IT: 69
cs.SE: 67
cs.DC: 36
cs.NI: 19
cs.HC: 13

问题分布详情

每篇目标论文的问题数：1个（229篇）、2个（361篇）、3个（141篇）、4个（15篇），平均约1.92个
每个问题引用的参考文献数：1篇（752个）、2篇（439个）、3篇（164个）、4篇（61个）、5篇（12个）、6篇（4个）、7篇（2个），平均约1.72篇
每个问题的缺口数：平均约2.20个，最大11个，总缺口数3,151个
问题长度：平均24.7词，中位数24词，范围14-50词

数据集结构

文件组织

rq-bench/ ├── README.md ├── rq_dataset.jsonl # 1,434行，每行一个研究问题记录 └── cited_papers/ # 1,375篇引用文献，按章节划分全文 ├── 1011.0686.json ├── 1303.3679.json └── ...

`rq_dataset.jsonl` 字段说明

字段	类型	描述
`rq_id`	str	稳定标识符，格式 `<arxiv_id>_rq<index>`
`question`	str	真实研究问题（对模型隐藏）
`source_paper`	dict	目标论文元数据
`source_paper.paper_id`	str	Semantic Scholar 论文ID
`source_paper.arxiv_id`	str	目标论文arXiv标识符
`source_paper.title`	str	论文标题
`source_paper.subfield`	str	arXiv CS子领域
`source_paper.novelty_type`	str	新颖性类型
`source_paper.main_idea.headline`	str	论文核心思想概述
`source_paper.main_idea.contributions`	list[str]	作者宣称的贡献列表
`source_paper.problem`	str	论文问题陈述
`source_paper.venue_info`	dict	发表信息（venue, venue_type, venue_id, year）
`grounded_in_refs`	list[dict]	引用参考文献列表
`grounded_in_refs[].arxiv_id`	str	引用文献的arXiv ID
`grounded_in_refs[].gaps`	list[dict]	引用文献遗留的缺口
`grounded_in_refs[].gaps[].limitation`	str	具体局限性
`grounded_in_refs[].gaps[].evidence_quote`	str	目标论文中证明缺口的原话
`grounded_in_refs[].gaps[].evidence_source`	str	证据来源章节
`grounded_in_refs[].gaps[].target_relation`	str	目标论文如何解决该缺口

`cited_papers/<arxiv_id>.json` 字段说明

每份文件至少包含：

字段	描述
`arxiv_id`	与文件名匹配的arXiv ID
`title`	论文标题
`abstract`	论文摘要
`<SECTION_NAME>`	各章节全文（如INTRODUCTION、PRELIMINARIES、EXPERIMENTS等）

数据集特点

仅评估集：仅包含 test 划分，无训练/验证集
作者锚定：每个真实研究问题均从真实 arXiv 论文中提取
引用锚定：每个问题附带具体的引用文献、原文引用证据以及解决方案描述
低污染风险：目标论文主要为2025-2026年，对2025年之前的LLM污染风险很低

使用场景

适用场景

研究问题生成、科学构思和文献推理模型的基准测试
科学助手的微调/偏好学习（利用 cited_papers, gaps, question 三元组）
引文锚定的缺口分析研究

不适用场景

预测目标论文的标题、完整方法或实验结果
超出所列13个CS子领域的文本任务
作为arXiv论文摘要生成的训练语料

局限性

仅限CS领域：所有13个子领域均为arXiv CS类别，不包含生物医学或物理科学问题
时间分布不均：目标论文主要来自2025-2026年
章节结构不统一：引用文献JSON文件的键为论文专属章节标题
非作者原始撰写：真实研究问题由LLM辅助提取，非作者直接撰写
缺口文本自动提取：部分字段为模型生成的改写，非人工审校

引用信息

@misc{rqbench2026, title = {The Novelty Mirage: RQBench and the Limits of LLM-as-Judge for Scientific Research Questions}, author = {Sinhahajari, Soumitra and Majumder, Navonil and Poria, Soujanya}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/declare-lab/rq-bench}} }

维护方

南洋理工大学深度认知与语言研究实验室（DeCLaRe Lab）

搜集汇总

数据集介绍

构建方式

RQ-Bench的构建根植于科学研究的真实流程，旨在评估语言模型能否从背景文献中生成与人类研究者所提出的实际研究问题相契合的假设。该数据集的核心构建逻辑是从arXiv上近期发表的论文中，精炼出每篇目标论文所持有的研究问题作为基准答案。随后，将目标论文引用的、用以阐述研究动机的前期文献的全文作为模型的输入上下文。每个测试样本仅向模型提供这些被引用的参考文献，要求模型生成一个具体、可回答且严格基于参考文献所揭示研究空白的创新性问题。最终，将模型生成的预测与真实的研究问题进行比对，以此衡量其科学推理与问题发现能力。

特点

该数据集的显著特性在于其以作者和参考文献为双重锚点的设计。所有基准研究问题均提炼自真实arXiv论文的原始框架，确保了问题与前沿研究的高度相关性。每一道问题都配备了明确作为其研究动机来源的被引论文列表，以及目标论文中描述研究空白的原始引文证据。数据集跨越了13个计算机科学子领域，且目标论文主要来自2025至2026年，极大地降低了模型因数据泄露而产生污染的风险。此外，数据集中蕴含了超过三千个具体的研究空白点，为细粒度的证据归因研究提供了宝贵资源。

使用方法

RQ-Bench专为评估和微调科学推理模型而设计，其仅包含测试集，不设训练与验证划分。用户可通过HuggingFace的`datasets`库直接加载研究问题元数据，获取字段如`question`和`grounded_in_refs`，后者列出了每道问题所依据的被引论文及其对应的空白点。被引论文的全文以结构化JSON格式提供，可通过文件链接按需加载。该基准特别适用于训练能够进行基于文献的研究问题生成、科学构思与空白分析的语言模型，其丰富的`evidence_quote`和`target_relation`字段也为构建具有推理能力的科学助手提供了高质量的监督信号。

背景与挑战

背景概述

RQ-Bench由南洋理工大学DeCLaRe实验室的研究人员于2026年提出，旨在填补现有评估体系中对语言模型提出研究问题能力的空白。尽管大型语言模型在科学知识创造过程中展现潜力，但已有基准多聚焦于给定主题或文献后的‘最终想法’生成，而非评估模型从背景文献中识别并构建合理研究问题的核心能力。该数据集包含1,434个研究问题，覆盖13个计算机科学子领域，每对数据将真实arXiv论文中的研究问题与引用的前置文献关联，为评估模型在科学推理与文献理解方面的能力提供了标准化测试平台，对推动AI辅助科研创新具有重要影响。

当前挑战

该领域面临的核心挑战在于如何使语言模型能从学术文献中识别真实的研究缺口，而非依赖记忆或泛化生成表面合理的问题。RQ-Bench构建过程中面临多重困难：需要从746篇近期arXiv论文中精准提炼出作者实际研究的问题，确保其与引用文献中暴露的局限直接锚定；还需克服1,375篇引用论文的文本异构性，因文献章节结构不一，需设计统一的解析与索引方案；此外，原始研究中发现语言模型生成的RQs在新颖性和准确性上均难与人工作答匹敌，且使用LLM作为评测法官时存在自我矛盾现象，凸显了该任务在自动化评估上的深层挑战。

常用场景

经典使用场景

在科学研究日益依赖大型语言模型的当下，RQ-Bench作为首个专注于评估模型从背景文献中生成研究问题能力的基准，其经典使用场景在于检验语言模型能否像人类研究者一样，通过阅读引用的背景文献，识别出其中的研究空白，并提出具体、可回答且扎根于文献的研究问题。该数据集内嵌了来自arXiv论文的真实研究问题及其对应的引用文献全文本，模型需在仅看到引用文献的条件下进行预测，并与作者提出的真实研究问题进行比较，从而量化模型在科学推理与文献理解方面的表现。

实际应用

在实际应用中，RQ-Bench可服务于多类场景。对于科研辅助工具的开发者而言，该数据集提供了丰富的监督信号，可用于微调或偏好学习，以构建能够从文献中精准提炼研究问题的智能助手。具体而言，数据集中的（引用文献、研究空白、研究问题）三元组与证据引用字段，为训练具有推理链的科学助手提供了理想的训练素材。此外，该基准也可用于评估现有大型语言模型在文献阅读、研究空白分析等高级科学任务上的表现，帮助研究机构或企业筛选更适配科研场景的语言模型。

衍生相关工作

RQ-Bench的发布催生了一系列值得关注的衍生研究方向。其一，基于其引用锚定的设计理念，研究者可以进一步探索证据归因方法，开发能够自动定位并解释研究空白来源的模型。其二，该数据集中提供的引用文献全文与研究问题的配对，为发展细粒度的科学推理评估体系提供了基础，例如研究问题的新颖性自动判定、研究空白识别的可解释性分析等。其三，数据集揭示的语言模型在自我评审中的矛盾性，激发了关于如何构建更可靠的AI评审机制的研究，推动了对大型语言模型在科学知识创造链中角色的重新审视与改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集