Archer-Code-1.5B

Hugging Face2025-07-24 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/Fate-Zero/Archer-Code-1.5B

下载链接

链接失效反馈

官方服务：

资源简介：

Archer-Code-1.5B是一个包含6.7K个可验证的、具有挑战性的和多样化的编码问题的数据集，用于训练代码推理模型。数据集从开源数据集中精选编码问题，经过清洗和策划，分为训练集，支持大规模基于规则的强化学习训练。

Archer-Code-1.5B is a dataset containing 6.7K verifiable, challenging and diverse coding problems, designed for training code reasoning models. These coding problems are curated from open-source datasets, then cleaned and refined, and finally split into training subsets to support large-scale rule-based reinforcement learning training.

创建时间：

2025-07-21

原始信息汇总

Archer-Code-1.5B 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英文
标签: 强化学习、大语言模型、推理、代码
库名称: datasets
规模类别: 1K<n<10K
数据集名称: Archer-Code-1.5B

数据集结构

特征:
- prompt: 字符串类型
- ground_truth: 字符串类型
- ability: 字符串类型
拆分:
- train:
  - 字节数: 2435199193
  - 样本数: 6753
下载大小: 1374060566
数据集大小: 2435199193

数据集来源

数据来源:
数据处理:
- 包括重新生成的测试用例以减少假阳性
- 当存在重复时，优先使用code_contests或codeforces数据

引用

bibtex @article{wang2025stabilizing, title={Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR}, author={Wang, Jiakang and Liu, Runze and Zhang, Fuzheng and Li, Xiu and Zhou, Guorui}, journal={arXiv preprint arXiv:2507.15778}, year={2025} }

搜集汇总

数据集介绍

构建方式

在代码生成与推理领域，Archer-Code-1.5B数据集通过系统化的数据采集与清洗流程构建而成。研究团队精选了来自DeepScaleR-Preview、DeepMind代码竞赛以及Codeforces等多个开源平台的编程问题，采用优先级策略处理重复数据，确保样本的独特性和质量。所有测试用例均经过重新生成，有效降低了误判风险，最终形成包含6753个样本的高质量语料库。

使用方法

作为专为强化学习设计的代码推理数据集，该资源主要支持大规模语言模型的微调与评估。使用者可通过HuggingFace平台直接加载数据集，利用prompt-ground_truth配对数据进行监督学习，或结合ability标签进行多任务训练。配套的技术报告详细阐述了双令牌约束等创新方法，建议研究者在模型训练过程中参考论文中的RLVR框架以获得最佳效果。

背景与挑战

背景概述

Archer-Code-1.5B数据集是由北京大学王佳康团队于2025年发布的一项专注于代码推理领域的重要资源。该数据集整合了DeepMind、Open-r1等多个开源平台的编程题目，经过严格筛选和去重处理，最终形成包含6753个高质量样本的集合。作为强化学习在大型语言模型代码推理能力训练中的关键基础设施，其设计理念源于解决当前AI系统在复杂编程任务中泛化能力不足的核心问题。数据集配套的ArcherCodeR模型系列通过双令牌约束机制，显著提升了模型在代码生成任务中的稳定性和逻辑性，相关技术已发表于arXiv预印本平台。

当前挑战

构建Archer-Code-1.5B数据集面临多重技术挑战：在领域问题层面，需要克服编程题目测试用例的假阳性问题，通过重新生成验证用例确保评估可靠性；数据整合过程中，不同来源的提示词重复率高达32%，需建立优先级规则进行去重处理；模型训练阶段，如何平衡知识固化与推理促进的辩证关系成为关键，研究团队最终采用双令牌约束的强化学习框架解决这一矛盾。这些挑战的突破为后续代码生成数据集建设提供了重要技术范式。

常用场景

经典使用场景

在代码生成与推理领域，Archer-Code-1.5B数据集通过其精心筛选的6753个编程问题实例，为大型语言模型（LLM）的强化学习训练提供了标准化的评估基准。该数据集特别适用于测试模型在解决复杂算法问题时的逻辑推理能力，其多样化的题目来源（包括DeepMind代码竞赛和Codeforces平台）确保了评估场景的全面性。研究者常利用该数据集进行模型微调实验，以验证不同强化学习策略对代码生成性能的影响。

解决学术问题

该数据集有效解决了代码生成模型中普遍存在的幻觉输出和泛化能力不足问题。通过提供经过验证的测试用例和去重处理的高质量数据，研究者能够更准确地评估模型在真实编程场景中的表现。其标注的'ability'字段进一步细化了模型能力维度分析，为理解LLM在不同编程范式（如动态规划、图论）中的知识缺陷提供了量化依据，推动了可解释性代码生成研究的发展。

实际应用

在工业界实践中，该数据集支撑的ArcherCodeR模型系列已应用于智能编程助手开发。通过集成强化学习优化的代码推理能力，显著提升了自动化代码补全、错误检测等功能的准确性。教育领域则利用该数据集构建编程能力评估系统，基于模型在数据集上的表现预测学习者的算法掌握程度，为个性化编程教学提供数据支持。

数据集最近研究

Archer-Code-1.5B

Archer-Code-1.5B 数据集概述

基本信息

数据集结构

数据集来源

相关资源

引用