OREAL-RL-Prompts

Name: OREAL-RL-Prompts
Creator: InternLM
Published: 2025-02-11 16:20:00
License: 暂无描述

Hugging Face2025-02-11 更新2025-02-12 收录

下载链接：

https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

下载链接

链接失效反馈

官方服务：

资源简介：

OREAL-RL-Prompts数据集包含了OREAL项目在强化学习训练阶段使用的提示，这些问题提示来源于MATH、Numina以及历史AMC/AIME数据集，不包含2024年的数据。数据集通过OREAL-7B-SFT模型进行了16次推理来计算每个提示的通过率，以评估提示的有效性。

The OREAL-RL-Prompts dataset contains the prompts used by the OREAL project during its reinforcement learning training phase. These prompts are sourced from the MATH, Numina, and historical AMC/AIME datasets, excluding data from 2024. To evaluate the effectiveness of the prompts, 16 inference runs were conducted for each prompt using the OREAL-7B-SFT model to calculate their pass rates.

提供机构：

InternLM

创建时间：

2025-02-11

原始信息汇总

数据集概述

数据集信息

数据集名称：OREAL-RL-Prompts
特征：
- question：字符串类型
- gold_answer：字符串类型
- pass_rate：浮点类型
数据划分：
- train：大小为1488304字节，共4214个示例
下载大小：822993字节
数据集大小：1488304字节

配置

配置名称：default
数据文件：
- train：路径为data/train-*

简介

该数据集包含OREAL项目强化学习训练阶段使用的提示。提示来源于MATH、Numina以及历史AMC/AIME（2024年数据除外）。提示的通过率是通过OREAL-7B-SFT模型的16次推理计算得出的。

搜集汇总

数据集介绍

构建方式

OREAL-RL-Prompts数据集的构建，采取了汇集数学领域中的MATH、Numina以及历史AMC/AIME考试（2024年数据除外）中的提示语的方式。这些提示语经过16次推断，与OREAL-7B-SFT模型配合使用，计算出通过率，以此作为数据集构建的核心依据。

特点

该数据集的特点在于，其内容专属于数学教育领域，覆盖了不同难度层次的考试题目。数据集不仅包含了问题本身，还提供了黄金答案及通过率，为研究者在模型训练和评估过程中提供了全面且细致的参考。此外，数据集的构建充分考虑到实际应用中的泛化能力，增强了模型的实际应用价值。

使用方法

使用OREAL-RL-Prompts数据集，用户首先需要通过HuggingFace平台下载。数据集分为训练集，其中包含了4214个示例。用户可以根据具体的模型训练需求，对数据进行加载、处理和迭代训练。借助数据集中的问题、答案及通过率信息，研究者可以有效地对模型进行性能评估和优化。

背景与挑战

背景概述

OREAL-RL-Prompts数据集是OREAL项目的重要组成部分，该项目致力于通过强化学习提升数学问题解答能力。该数据集创建于2023年，由InternLM团队负责维护。数据集汇集了来自MATH、Numina以及历史AMC/AIME考试的题目，旨在通过这些精心设计的提示（prompts）对OREAL-7B-SFT模型进行训练。数据集的核心研究问题是如何提高机器在数学问题解答上的准确性和效率，对自然语言处理和机器学习领域产生了显著影响。

当前挑战

在数据集构建过程中，研究人员面临了诸多挑战。首先，确保收集到的数学题目具有高质量和多样性是一项重要任务。其次，数据集在构建时需要解决的领域问题是如何准确评估模型的通过率，这涉及到多次推理计算以及评估方法的准确性。此外，数据集的构建还需克服数据清洗、标注一致性以及训练时数据分布不均等问题，以确保模型训练的效率和效果。

常用场景

经典使用场景

在自然语言处理与数学推理研究领域，OREAL-RL-Prompts数据集的典型应用场景在于为强化学习模型提供训练所需的提示文本。这些提示文本源于数学题目，旨在辅助模型理解并解决数学问题，从而提升数学推理能力。

衍生相关工作

基于OREAL-RL-Prompts数据集，研究者们进一步开展了多项相关工作，包括但不限于数学问题解答模型的构建与评估，以及面向教育的自然语言处理技术的创新应用，推动了智能教育领域的发展。

数据集最近研究

OREAL-RL-Prompts

数据集概述

数据集信息

配置

相关链接

简介