five

Eurus-2-RL-Data|强化学习数据集|编程竞赛数据集

收藏
huggingface2025-01-02 更新2025-01-03 收录
强化学习
编程竞赛
下载链接:
https://huggingface.co/datasets/PRIME-RL/Eurus-2-RL-Data
下载链接
链接失效反馈
资源简介:
Eurus-2-RL-Data是一个高质量的强化学习训练数据集,包含数学和编程问题,并带有结果验证器(数学问题的LaTeX答案和编程问题的测试用例)。数学问题来源于NuminaMath-CoT,涵盖从中国高中数学到国际数学奥林匹克竞赛的题目;编程问题来源于APPS、CodeContests、TACO和Codeforces,主要是编程竞赛级别的题目。数据集经过详细的清理和过滤,确保问题可解且答案正确。最终保留了455k个数学问题和27k个编程问题。
创建时间:
2024-12-31
原始信息汇总

Eurus-2-RL-Data 数据集概述

数据集简介

Eurus-2-RL-Data 是一个高质量的强化学习训练数据集,包含数学和编程问题,并提供了结果验证器(数学问题的LaTeX答案和编程问题的测试用例)。

  • 数学问题:数据来源于 NuminaMath-CoT,涵盖从中国高中数学到国际数学奥林匹克竞赛的题目。
  • 编程问题:数据来源于 APPSCodeContestsTACOCodeforces,主要为编程竞赛级别的题目。

数据预处理

为了提高数据质量,数据集进行了详细的清洗和过滤。

  • 数学问题:使用高级推理模型(如 Qwen-QwQ)过滤掉无法解决、不匹配或答案错误的问题,并将选择题转换为开放性问题。
  • 编程问题:主要过滤掉重复的问题。

最终保留了 455k 个数学问题和 27k 个编程问题。

数据集结构

数据集包含训练集和验证集,具体结构如下:

python from datasets import load_dataset

ds = load_dataset("PRIME-RL/Eurus-2-RL-Data") print(ds)

DatasetDict({

train: Dataset({

features: [id, task, source, instruction, reference],

num_rows: 482019

})

validation: Dataset({

features: [id, task, source, instruction, reference],

num_rows: 2048

})

})

数据统计

Train Validation
Math 455261 1024
Coding 26758 1024

数据示例

数学问题

json { "id": "numina_amc_aime_1931", "task": "Math", "source": "numina_amc_aime", "instruction": "Given that $\frac{2}{7}$ of the knights are red, and $\frac{1}{6}$ of the knights are magical, and that the fraction of red knights who are magical is $2$ times the fraction of blue knights who are magical, find the fraction of red knights who are magical.

Present the answer in LaTex format: \boxed{Your answer}", "reference": "\frac{7}{27}" }

编程问题

json { "id": "codecontests_0", "task": "Coding", "source": "codecontests", "instruction": "You are given undirected weighted graph. Find the length of the shortest cycle which starts from the vertex 1 and passes throught all the edges at least once. Graph may contain multiply edges between a pair of vertices and loops (edges from the vertex to itself).

Input

The first line of the input contains two integers n and m (1 ≤ n ≤ 15, 0 ≤ m ≤ 2000), n is the amount of vertices, and m is the amount of edges. Following m lines contain edges as a triples x, y, w (1 ≤ x, y ≤ n, 1 ≤ w ≤ 10000), x, y are edge endpoints, and w is the edge length.

Output

Output minimal cycle length or -1 if it doesnt exists.

Examples

Input

3 3 1 2 1 2 3 1 3 1 1

Output

3

Input

3 2 1 2 3 2 3 4

Output

14

Write Python code to solve the problem. Present the code in python Your code

at the end.", "reference": "{"inputs": ["3 3\n1 2 1\n2 3 1\n3 1 1\n", "3 2\n1 2 3\n2 3 4\n", "2 10\n1 2 9\n1 2 9\n2 1 9\n1 2 8\n2 1 9\n1 2 9\n1 2 9\n1 2 11\n1 2 9\n1 2 9\n", "4 4\n1 3 1953\n3 2 2844\n1 3 2377\n3 2 2037\n", "2 1\n2 2 44\n", "4 8\n1 2 4824\n3 1 436\n2 2 3087\n2 4 2955\n2 4 2676\n4 3 2971\n3 4 3185\n3 1 3671\n", "15 14\n1 2 1\n2 3 1\n2 4 1\n3 5 1\n3 6 1\n4 7 1\n4 8 1\n5 9 1\n5 10 1\n6 11 1\n6 12 1\n7 13 1\n7 14 1\n8 15 1\n", "15 0\n", "3 1\n3 2 6145\n", "15 4\n1 5 5531\n9 15 3860\n8 4 6664\n13 3 4320\n", "7 3\n4 4 1\n7 7 1\n2 2 1\n", "2 8\n1 2 4618\n1 1 6418\n2 2 2815\n1 1 4077\n2 1 4239\n1 2 5359\n1 2 3971\n1 2 7842\n", "4 2\n1 2 1\n3 4 1\n", "6 2\n5 3 5039\n2 3 4246\n", "2 1\n2 2 5741\n", "4 2\n3 2 6816\n1 3 7161\n", "15 1\n7 5 7838\n", "6 4\n5 4 6847\n3 6 7391\n1 6 7279\n2 5 7250\n", "15 2\n5 13 9193\n14 5 9909\n", "5 2\n2 2 2515\n2 4 3120\n", "3 3\n1 2 1\n2 3 1\n3 2 1\n", "3 1\n3 2 6389\n", "10 3\n4 4 1\n7 7 1\n2 2 0\n", "6 2\n5 5 5039\n1 3 4246\n", "15 1\n9 9 7838\n", "6 4\n5 4 6847\n3 6 7391\n1 3 2446\n2 5 7250\n", "1 2\n1 1 1\n1 1 3\n", "6 0\n", "3 1\n3 3 9184\n", "10 3\n4 4 0\n7 7 1\n2 2 0\n", "6 2\n5 5 5039\n1 3 7812\n", "15 1\n3 9 7838\n", "4 4\n1 3 1953\n4 4 2844\n2 3 4041\n3 2 2037\n"], "outputs": ["3\n", "14\n", "91\n", "9211\n", "-1\n", "28629\n", "28\n", "0\n", "-1\n", "-1\n", "-1\n", "43310\n", "-1\n", "-1\n", "-1\n", "27954\n", "-1\n", "-1\n", "73199\n", "44\n", "3\n", "-1\n", "8\n", "0\n", "-1\n", "-1\n", "-1\n", "3059\n", "7042\n", "-1\n", "0\n", "22019\n", "69034\n", "6\n", "9683\n", "14464\n", "-1\n", "6222\n", "95162\n", "35262\n", "0\n", "-1\n", "90\n", "3669\n", "315043\n", "9\n", "41\n", "10875\n", "26917\n", "28\n", "-1\n", "46065\n", "4\n", "11482\n", "27874\n", "5\n", "2957\n", "7043\n", "69034\n", "9547\n", "12136\n", "0\n", "87\n", "307170\n", "35\n", "7\n", "14865\n", "27196\n", "44599\n", "7039\n", "8481\n", "11646\n", "80\n", "316201\n", "9\n", "15672\n", "26868\n", "7029\n", "10119\n", "85\n", "24495\n", "-1\n", "-1\n", "-1\n", "-1\n", "-1\n", "-1\n", "4\n", "-1\n", "-1\n", "-1\n", "-1\n", "-1\n", "4\n", "0\n", "-1\n", "-1\n", "-1\n", "-1\n", "-1\n"]}" }

引用

latex @misc{cui2024process, title={Process Reinforcement through Implicit Rewards}, author={Ganqu Cui and Lifan Yuan and Zefan Wang and Hanbin Wang and Wendi Li and Bingxiang He and Yuchen Fan and Tianyu Yu and Qixin Xu and Weize Chen and Jiarui Yuan and Huayu Chen and Kaiyan Zhang and Xingtai Lv and Shuo Wang and Yuan Yao and Hao Peng and Yu Cheng and Zhiyuan Liu and Maosong Sun and Bowen Zhou and Ning Ding}, year={2025} }

latex @article{yuan2024implicitprm, title={Free Process Rewards without Process Labels}, author={Lifan Yuan and Wendi Li and Huayu Chen and Ganqu Cui and Ning Ding and Kaiyan Zhang and Bowen Zhou and Zhiyuan Liu and Hao Peng}, journal={arXiv preprint arXiv:2412.01981}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Eurus-2-RL-Data数据集的构建过程体现了高度的专业性和严谨性。该数据集主要从NuminaMath-CoT、APPS、CodeContests、TACO和Codeforces等高质量数据源中筛选数学和编程问题。针对数学问题,采用了先进的推理模型如Qwen-QwQ进行过滤,确保问题的可解性和答案的准确性,并将选择题转化为开放式问题。编程问题则通过去重等步骤进行清理。最终,数据集保留了45.5万道数学问题和2.7万道编程问题,确保了数据的多样性和高质量。
特点
Eurus-2-RL-Data数据集的特点在于其广泛覆盖了从中国高中数学到国际数学奥林匹克竞赛的数学问题,以及编程竞赛级别的编程问题。每个问题都配备了详细的验证机制,数学问题的答案以LaTeX格式呈现,编程问题则通过测试用例进行验证。数据集经过严格的清洗和过滤,确保了问题的可解性和答案的准确性,使其成为强化学习训练的理想选择。
使用方法
使用Eurus-2-RL-Data数据集时,可以通过Hugging Face的`datasets`库轻松加载。数据集分为训练集和验证集,分别包含48.2万和2048个样本。每个样本包含`id`、`task`、`source`、`instruction`和`reference`等字段,便于用户根据任务需求进行定制化处理。加载后,用户可以直接访问数据集中的数学和编程问题,进行模型训练和验证,提升模型在复杂问题求解中的表现。
背景与挑战
背景概述
Eurus-2-RL-Data数据集由PRIME-RL团队于2024年发布,旨在为数学和编程领域的强化学习提供高质量的训练数据。该数据集整合了多个来源的数学和编程问题,包括NuminaMath-CoT、APPS、CodeContests、TACO和Codeforces等。数学问题涵盖了中国高中数学到国际数学奥林匹克竞赛的题目,而编程问题则主要来自编程竞赛。通过使用先进的推理模型如Qwen-QwQ进行数据清洗和过滤,数据集最终保留了45.5万道数学题和2.7万道编程题。该数据集的发布为强化学习在复杂问题求解中的应用提供了重要支持,推动了数学和编程领域的自动化求解技术的发展。
当前挑战
Eurus-2-RL-Data数据集在构建过程中面临多重挑战。首先,数学和编程问题的多样性和复杂性使得数据清洗和过滤变得尤为困难,尤其是如何确保问题的可解性和答案的正确性。其次,将选择题转换为开放式问题的过程中,如何保持问题的原意和数学严谨性是一个技术难题。此外,数据验证阶段需要依赖先进的推理模型进行多次独立验证,以确保问题的可解性和答案的一致性,这一过程不仅耗时,且对计算资源要求较高。最后,数据集的规模和质量之间的平衡也是一个持续的挑战,如何在保留大量数据的同时确保每道题目的高质量,是数据集构建中的核心问题。
常用场景
经典使用场景
Eurus-2-RL-Data数据集在强化学习领域中被广泛应用于数学和编程问题的训练与验证。该数据集通过高质量的数学问题和编程竞赛题目,为模型提供了丰富的训练素材。数学问题涵盖从中国高中数学到国际数学奥林匹克竞赛的题目,编程问题则主要来自APPS、CodeContests等编程竞赛平台。通过详细的清洗和过滤,确保了数据的高质量,使得模型能够在复杂的数学推理和编程任务中表现出色。
解决学术问题
Eurus-2-RL-Data数据集解决了强化学习领域中数学和编程任务的高质量数据稀缺问题。通过引入高级推理模型进行问题过滤和验证,确保了问题的可解性和答案的正确性。该数据集为研究人员提供了一个标准化的训练和测试平台,推动了数学推理和编程自动化领域的研究进展,尤其是在复杂问题求解和答案验证方面的突破。
衍生相关工作
Eurus-2-RL-Data数据集衍生了一系列经典的研究工作,特别是在强化学习和自动化推理领域。基于该数据集的研究成果包括《Process Reinforcement through Implicit Rewards》和《Free Process Rewards without Process Labels》等论文,这些工作进一步推动了数学推理和编程自动化技术的发展,并为后续研究提供了重要的理论基础和实践参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录

Project Gutenberg

Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。

www.gutenberg.org 收录