II-Thought-RL-v0
收藏Hugging Face2025-03-28 更新2025-03-29 收录
下载链接:
https://huggingface.co/datasets/Intelligent-Internet/II-Thought-RL-v0
下载链接
链接失效反馈官方服务:
资源简介:
II-Thought RL v0是一个大规模、多任务的数据集,专为强化学习设计。该数据集包含经过严格多步骤过滤的高质量问题-答案对,使用了Gemini 2.0 Flash和Qwen 32B作为质量评估工具。数据集涵盖了数学、编程、科学等多个领域,包括来自公开数据集的问题对和自定义的高质量问题对。数据集经过去重、质量评估和去污染流程,以确保数据完整性和训练适用性。
创建时间:
2025-03-24
原始信息汇总
II-Thought RL v0 数据集概述
数据集基本信息
- 名称: II-Thought RL v0
- 类型: 大规模多任务强化学习数据集
- 数据量: 341,795个样本
- 总大小: 4,819,048,664字节
- 下载大小: 2,448,038,647字节
- 特征:
- id (string)
- problem (string)
- answer (string)
- type (string)
- verification_info (string)
- data_source (string)
- domain (string)
数据来源与构成
数学领域
- 来源:
- HARP
- OMNI-Math
- Numina-Math-CoT
- Numina-Math-1.5
- DeepScaler
- IMO Shortlist问题
- 处理流程:
- 使用MinerU提取高质量数学表达式
- 通过Gemini 2.0 Flash提取问题/解决方案对
- 正则表达式初步过滤
- Gemini 2.0 Flash质量评估
- Qwen 32B过滤不适合RL训练的问题
代码领域
- 来源:
- Apps
- Taco
- Code Contest
- Codeforces
- ACM-ICPC竞赛问题
- 处理流程:
- 移除无测试用例的问题
- Gemini 2.0 Flash质量评估
- Qwen 32B最终质量检查
科学领域
- 来源:
- Camel Physics
- Camel Chemistry
- Camel Biology
- 13,000个公开可验证的科学问题对
其他领域
- 来源:
- medical-o1-verifiable-problem
- riddle_sense
- GeneralThought-Feb25
数据集统计
| 数据集 | 领域 | 来源 | 样本数 |
|---|---|---|---|
| NuminaMath-1.5 | 数学 | AI-MO/NuminaMath-1.5 | 123,442 |
| Real World SWE | 代码 | primeintellect/real-world-swe-problems | 69,176 |
| Mix-Math | 数学 | 多来源 | 53,532 |
| medical-o1-verifiable-problem | 医学 | FreedomIntelligence | 38,986 |
| DeepScaler | 数学 | agentica-org | 12,573 |
| OpenTextBook | 科学 | crawl/text_book | 10,593 |
| GeneralThought-Feb25 | 推理 | GeneralReasoning | 9,075 |
| Code Contest | 代码 | deepmind | 8,937 |
| Apps & Taco | 代码 | PrimeIntellect | 7,450 |
| riddle_sense | 谜语 | ink-usc | 3,454 |
| Python Codeforces | 代码 | matrixstudio | 2,143 |
| Open-ICPC | 代码 | crawl/icpc | 1,990 |
| CAMEL Physics | 科学 | camel-ai | 271 |
| CAMEL Chemistry | 科学 | camel-ai | 168 |
| CAMEL Biology | 科学 | camel-ai | 5 |
引用
bib @misc{2025iithought, title={II-Thought : A Large-Scale, High-Quality Reasoning Dataset}, author={Intelligent Internet} year={2025}, }
搜集汇总
数据集介绍

构建方式
在强化学习领域,高质量数据集的构建对模型训练至关重要。II-Thought RL v0数据集通过多阶段严格筛选流程构建而成,整合了公开数据集与自主采集的高质量问答对。其构建过程首先利用Gemini 2.0 Flash和Qwen 32B作为质量评估器进行初步筛选,随后通过正则表达式过滤可验证子集,最后采用滑动窗口技术从PDF文档中提取数学表达式和编程问题。数据集特别注重去除证明题、选择题等不适合强化学习的题型,并经过近重复检测和去污染处理,确保数据纯净度。
特点
作为首个面向强化学习的大规模多任务数据集,II-Thought RL v0涵盖数学、编程、科学等多个领域,包含34万余条经过验证的高质量样本。数据集最显著的特点是每个样本都配有验证信息,确保答案的可验证性。其数学部分整合了IMO等国际竞赛真题,编程部分收录了ICPC等顶级赛事20年的历史题目,科学部分则精选了具有数值答案的物理、化学、生物问题。通过T-SNE可视化分析可见,数据集在特征空间呈现良好的领域区分性。
使用方法
该数据集主要适用于强化学习模型的训练与评估,特别适合用于推理蒸馏技术的研究。使用时可按照领域划分加载特定子集,如数学或编程模块,也可整体加载进行跨领域学习。每个样本包含问题描述、标准答案、验证信息和数据来源等元数据,便于构建定制化的奖励函数。研究人员可重点关注数据集的验证信息字段,设计相应的强化学习环境。对于小模型训练,建议优先选用标注质量最高的IMO和ICPC子集。
背景与挑战
背景概述
II-Thought-RL-v0数据集由Intelligent Internet于2025年推出,旨在为强化学习领域提供一个大规模、多任务的高质量数据集。该数据集汇集了数学、编程、科学等多个领域的问答对,通过严格的筛选流程确保数据质量。其核心研究问题在于如何构建一个适用于强化学习训练的高质量、多样化数据集,以推动智能体在复杂任务中的推理和决策能力发展。数据集的构建融合了公开数据集和自主采集内容,特别注重科学、工程、医学等领域的可验证性问题,为后续研究提供了丰富的训练资源。
当前挑战
II-Thought-RL-v0数据集面临的主要挑战包括:在领域问题层面,如何确保问答对的质量和多样性,以适应强化学习模型的训练需求;如何平衡不同领域的样本分布,避免数据偏差。在构建过程中,挑战体现在数据处理环节,如从PDF文件中提取高质量的数学表达式,以及利用Gemini 2.0 Flash和Qwen 32B等模型进行多步质量评估;同时还需解决数据去重和去污染问题,确保最终数据集的纯净性。这些挑战需要通过复杂的技术流程和严格的质量控制来解决。
常用场景
经典使用场景
在强化学习领域,II-Thought-RL-v0数据集以其大规模、多任务特性成为研究者的重要工具。该数据集通过严格的多步筛选流程,整合了数学、编程、科学等多个领域的高质量问答对,为训练和评估强化学习模型提供了丰富的数据支持。特别是在数学和编程领域,数据集通过整合多个公开数据集和自有数据,确保了问题的多样性和复杂性,使其成为测试模型推理能力和泛化性能的理想选择。
解决学术问题
II-Thought-RL-v0数据集解决了强化学习研究中数据质量参差不齐和领域覆盖不足的问题。通过引入严格的筛选机制和多样化的数据来源,该数据集为研究者提供了高质量的基准数据,支持模型在复杂任务中的表现评估。其多领域特性尤其有助于推动跨领域推理和泛化能力的研究,填补了现有数据集中在科学、工程和医学等领域的空白。
衍生相关工作
基于II-Thought-RL-v0数据集,研究者们已开展多项经典工作。在数学推理领域,该数据集启发了Big-Math等项目的后续研究;在编程方面,其衍生的ICPC-RL-v2项目推动了竞赛级编程问题的自动化解决。数据集的多步筛选流程也为其他领域的数据质量控制提供了范本,如医学问答数据集medical-o1-verifiable-problem就借鉴了类似的验证方法。
以上内容由遇见数据集搜集并总结生成



