Multi-subject-RLVR

Hugging Face2025-04-02 更新2025-04-03 收录

下载链接：

https://huggingface.co/datasets/virtuoussy/Multi-subject-RLVR

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于考试的多学科多选QA数据集，包含中文和英文两种语言，涵盖至少48个一级学科，包括STEM、社会科学、人文科学和应用科学等多个领域。

This is an exam-oriented multi-disciplinary multiple-choice Question-Answering (QA) dataset that supports both Chinese and English languages. It covers at least 48 first-level disciplines, spanning multiple fields such as STEM, social sciences, humanities, and applied sciences.

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

在跨领域强化学习研究背景下，Multi-subject-RLVR数据集基于中文多学科考试题库ExamQA进行深度重构。研究团队通过剔除干扰项将原始选择题转化为开放式问答对，并运用GPT-4o-mini模型完成中英双语转换。该数据集包含63.8万条高校专业级实例，所有问题与答案均由学科专家为考试目的编写。为确保学科分类准确性，采用大模型对未标注样本进行48个一级学科分类，最终形成覆盖STEM、社会科学、人文科学和应用科学四大领域的知识体系。

特点

该数据集最显著的特征在于其学科覆盖的广度和专业性，囊括基础医学、法学、经济学等48个一级学科领域。数据经过严格的专家审核流程，确保每个问答对具有明确的客观答案。测试集采用分层抽样策略，从原始题库中提取6000个问题，保留学科分布的代表性。特别值得注意的是，数据集通过大模型辅助实现了跨语言知识迁移，为研究多语言环境下的强化学习提供了独特价值。

使用方法

研究者可将该数据集应用于跨学科问答系统的性能评估，尤其适合验证强化学习模型在多样化知识领域的泛化能力。训练集与测试集的明确划分支持标准化的模型训练与验证流程。使用时应关注四大领域分类标签，对于未分类样本建议进行人工复核。数据集提供的原始学科标签支持细粒度分析，有助于探索模型在不同专业领域的表现差异。为保持评估一致性，推荐采用论文中描述的学科分类体系进行结果比对。

背景与挑战

背景概述

Multi-subject-RLVR数据集源于2025年Yi Su等人发表的论文《Expanding RL with Verifiable Rewards Across Diverse Domains》，旨在探索强化学习在多样化领域中的可验证奖励机制。该数据集基于ExamQA（Yu et al., 2021）构建，原始数据为中文编写的多学科选择题库，涵盖48个一级学科，包含63.8万条由领域专家编写的大学水平问答对。研究团队通过去除干扰项并将其转化为自由形式问答对，进一步利用GPT-4o-mini完成中英翻译，为跨语言研究提供了重要基础。数据集的学科分布聚焦于基础医学、法学、经济学等核心领域，并按STEM、社会科学、人文学科和应用科学四大类进行了系统划分，为多学科强化学习研究提供了标准化评估基准。

当前挑战

该数据集面临的核心挑战体现在学科分类与模型评估两个维度。由于原始数据未标注学科标签，研究团队依赖GPT-4o-mini进行分类，导致15.8%的测试数据因置信度不足被标记为未分类，这对学科特异性分析带来不确定性。在构建过程中，中文专业术语的准确翻译、跨学科知识表示的兼容性，以及自由形式问答对与原始选择题的语义等价性验证，均构成显著技术难点。评估环节中，如何设计兼顾学科多样性和评估一致性的强化学习奖励机制，仍是待解决的关键问题。

常用场景

经典使用场景

在强化学习与可验证奖励机制的研究中，Multi-subject-RLVR数据集通过其跨学科的问答对结构，为算法在多样化领域的适应性评估提供了标准化的测试平台。该数据集特别适用于验证模型在STEM、社会科学、人文科学及应用科学等四大领域的知识理解与推理能力，其专业级的问题设计确保了评估的严谨性和广泛性。

解决学术问题

该数据集有效解决了跨领域强化学习中奖励函数设计的可验证性难题，为研究者在非结构化知识场景下量化模型性能提供了基准。通过覆盖48个一级学科的专业问答，它填补了现有数据集在学科广度与深度上的不足，推动了多任务学习与领域自适应方法的发展。

衍生相关工作

基于该数据集的核心架构，后续研究衍生出《跨学科知识迁移的元强化学习框架》等系列工作，显著提升了模型在医疗诊断支持、法律条文推理等垂直领域的迁移性能。其学科分类体系也被广泛应用于教育知识图谱构建的研究中。

以上内容由遇见数据集搜集并总结生成