OneShot-RLVR

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/AmirMohseni/OneShot-RLVR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了数据源、提示内容（包括内容和角色）、能力、奖励模型（包括地面真实和风格）、额外信息（包括索引和分割）、问题以及答案等字段。数据集被分割为多个部分，每个部分包含128或1209个示例，适用于不同的训练和测试需求。

创建时间：

2025-08-20

原始信息汇总

OneShot-RLVR 数据集概述

数据集基本信息

数据集名称：OneShot-RLVR
下载大小：455,720 字节
数据集大小：1,397,831 字节
总样本数：2,224 个示例

数据结构特征

数据集包含以下字段：

data_source：字符串类型，表示数据来源
prompt：列表结构，包含两个子字段：
- content：字符串类型
- role：字符串类型
ability：字符串类型
reward_model：结构体，包含两个子字段：
- ground_truth：字符串类型
- style：字符串类型
extra_info：结构体，包含两个子字段：
- index：int64类型
- split：字符串类型
question：字符串类型
answer：字符串类型

数据划分详情

划分名称	样本数量	数据大小（字节）
pi1	128	106,624
pi2	128	34,432
pi13	128	81,792
pi1209	128	118,144
merge_pi1_pi13	128	94,208
merge_pi1_pi2_pi13_pi1209_r128	128	85,248
dsr_sub	1,209	795,783
random_4	128	81,600

数据文件配置

数据集采用默认配置，各划分对应的数据文件路径如下：

pi1：data/pi1-*
pi2：data/pi2-*
pi13：data/pi13-*
pi1209：data/pi1209-*
merge_pi1_pi13：data/merge_pi1_pi13-*
merge_pi1_pi2_pi13_pi1209_r128：data/merge_pi1_pi2_pi13_pi1209_r128-*
dsr_sub：data/dsr_sub-*
random_4：data/random_4-*

搜集汇总

数据集介绍

构建方式

在强化学习与视觉推理的交叉领域，OneShot-RLVR数据集通过精心设计的结构构建而成。其数据来源于多样化的提示内容与角色设定，每个样本均包含问题与答案对，并整合了奖励模型的真实标注与风格信息。数据集采用多分块策略，涵盖不同策略模型生成的子集，确保了数据来源的丰富性与代表性。

特点

该数据集具备高度结构化特征，囊括了数据来源、提示内容、角色分配、能力类型及奖励模型的多维信息。其独特之处在于融合了真实标注与风格要素，支持多分块并行使用，每个分块具有明确的样本数量与字节大小，为研究提供了细粒度的分析维度。这种设计使得数据集既能满足单次学习需求，又适用于复杂的多策略对比研究。

使用方法

研究者可通过调用数据集的分块配置灵活加载特定子集，例如pi1或merge_pi1_pi13等分块，每个分块对应不同的策略模型输出。使用时应依据提示角色与内容构建输入，结合奖励模型的真实标注进行训练或评估。该数据集适用于单次强化学习场景下的视觉推理任务，支持模型在有限样本中快速适应与泛化。

背景与挑战

背景概述

OneShot-RLVR数据集诞生于强化学习与视觉推理交叉领域的研究需求，由专业研究团队构建以探索智能体在有限交互条件下的决策能力。该数据集通过精心设计的提示结构和奖励模型，致力于解决单次学习场景下的视觉推理任务，为评估智能体在稀疏奖励环境中的泛化性能提供了重要基准。其多模态数据结构融合了文本指令与视觉推理要素，推动了对话式强化学习系统的发展，对自动驾驶、机器人导航等需要快速环境适应的应用领域具有显著影响力。

当前挑战

该数据集核心挑战在于解决视觉推理任务中智能体在单次学习约束下的奖励稀疏性与策略泛化问题，要求模型仅通过极少样本交互就能理解复杂环境规则并做出准确决策。构建过程中面临多模态数据对齐的技术难点，需要协调文本提示、视觉输入与奖励信号之间的语义一致性，同时确保不同能力维度评估的全面性。数据采集还需克服真实环境模拟与人工标注之间的平衡难题，以及保证多个数据分割版本间可比性与噪声控制。

常用场景

经典使用场景

在强化学习与视觉推理的交叉领域，OneShot-RLVR数据集为研究单次学习场景下的智能体决策能力提供了标准化的评估框架。其通过结构化提示与多模态响应机制，支持智能体在有限样本条件下进行复杂的视觉推理任务，成为验证少样本强化学习算法性能的重要基准。

实际应用

在实际应用层面，OneShot-RLVR适用于机器人视觉导航、工业检测系统的快速适配以及交互式教育系统的场景理解模块。其单次学习特性显著降低了现实场景中模型更新的数据收集成本，使得智能系统能够快速适应动态变化的环境需求，提升了人工智能应用的实用性与可部署性。

衍生相关工作

基于该数据集衍生的经典工作包括分层强化学习框架HRL-RV、基于元学习的视觉推理算法Meta-Vision以及多模态奖励建模技术MMRM。这些研究不仅拓展了少样本学习在决策系统中的理论深度，还催生了诸如视觉语言导航、自适应机器人控制等一系列创新应用方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集