five

TACO-Cobalt

收藏
github2026-02-04 更新2026-02-07 收录
下载链接:
https://github.com/OSU-NLP-Group/cobalt
下载链接
链接失效反馈
官方服务:
资源简介:
我们提供了处理过的TACO数据集,包含清理过的训练和验证数据,以及扰动过的验证数据。我们还发布了两个LLM的合成离线轨迹。

We provide a processed TACO dataset, which includes cleaned training and validation data as well as perturbed validation data. Additionally, we release synthetic offline trajectories from two LLMs.
创建时间:
2026-01-25
原始信息汇总

Cobalt 数据集概述

数据集基本信息

  • 数据集名称: Cobalt
  • 关联论文: Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
  • 论文地址: https://arxiv.org/abs/2602.03806
  • 初始发布日期: 2026年02月03日

数据集目的与背景

该数据集用于支持论文中提出的Cobalt方法的研究,该方法旨在结合在线和离线强化学习的优势,用于训练大语言模型进行多轮代码生成任务。

包含的数据集

TACO-Cobalt

  • 描述: 经过处理的TACO数据集,包含清理后的训练和验证数据。
  • 访问地址: https://huggingface.co/datasets/osunlp/TACO-Cobalt

TACO-Cobalt-PTB

  • 描述: 包含扰动验证数据的TACO数据集变体,用于上下文奖励黑客行为分析和缓解训练。
  • 访问地址: https://huggingface.co/datasets/osunlp/TACO-Cobalt-PTB

合成离线轨迹

  • 描述: 为两个大语言模型合成的离线轨迹数据。
  • 访问地址: https://buckeyemailosu-my.sharepoint.com/:f:/g/personal/chen_8336_buckeyemail_osu_edu/IgAKScSv5V8xQLvCeGnv56TiAYeKYRxOr4t6Bzunm6eG6dg?e=FluDv2

原始数据来源

  • TACO-verified: 原始TACO验证数据集。
  • 访问地址: https://huggingface.co/datasets/likaixin/TACO-verified
  • LiveCodeBench: 代码生成基准测试数据集(隐藏测试用例被编码以防止数据泄露)。
  • 访问地址: https://huggingface.co/datasets/livecodebench/code_generation_lite

数据处理与预处理

TACO数据处理

  • 提供从原始TACO-verified数据开始处理的脚本 (preproc/preproc_taco.py)。
  • 提供为数据集扰动公共测试用例的脚本 (preproc/run_perturbation.py)。
  • 提供生成自定义代码生成轨迹数据集的脚本 (preproc/process_multi_turn_taco.py),支持动态采样和最大方差下采样。

LiveCodeBench数据处理

  • 提供处理LiveCodeBench test6.jsonl 数据的脚本 (preproc/preproc_lcb_test6.py)。

数据用途

  • 用于训练Cobalt方法,进行上下文赌博机学习。
  • 用于多轮代码生成的推理和评估。
  • 用于分析大语言模型的上下文奖励黑客行为。

评估方法

  • 提供多轮轨迹评估脚本 (eval_multi_turn.py),用于在隐藏测试用例上获取Pass@1结果。
  • 提供上下文奖励黑客分析流程,包括错误提取 (extract_turn_level_errors.py) 和LLM评判 (run_llm_judge.py)。

联系方式

  • Ziru Chen: chen.8336@osu.edu
  • Yujia Xie: Xie.Yujia000@gmail.com
  • Huan Sun: sun.397@osu.edu

引用格式

@misc{chen2026bridgingonlineofflinerl, title={Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation}, author={Ziru Chen and Dongdong Chen and Ruinan Jin and Yingbin Liang and Yujia Xie and Huan Sun}, year={2026}, eprint={2602.03806}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.03806}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在强化学习与代码生成交叉领域,TACO-Cobalt数据集的构建体现了对多轮代码生成轨迹的系统性处理。该数据集基于原始TACO-verified数据,通过参考大语言模型生成代码轨迹,并运用动态采样与最大方差下采样技术,将完整轨迹分割为部分轨迹作为上下文提示。构建过程中还引入了扰动测试用例的生成,以增强数据多样性并缓解模型在上下文中的奖励黑客行为。预处理流程包括启动代码执行服务器、运行数据清洗脚本,并支持用户根据自身需求生成定制化的轨迹数据集。
特点
TACO-Cobalt数据集的核心特点在于其专为多轮代码生成的上下文赌博机学习而设计。数据集不仅提供了经过清洗的训练与验证数据,还包含了扰动验证数据,以支持对模型鲁棒性的深入分析。轨迹数据以部分序列的形式组织,模拟了单步可恢复的马尔可夫决策过程,使得在线学习能够在离线轨迹的丰富上下文基础上进行。此外,数据集与LiveCodeBench等基准的兼容性,以及其公开的Hugging Face存储库,为研究者提供了便捷的访问与可复现的实验基础。
使用方法
使用TACO-Cobalt数据集时,研究者可依托提供的脚本进行多轮推理与评估。首先需配置Ray和vLLM环境以托管大语言模型,随后通过单轮与多轮推理脚本生成代码轨迹。评估阶段则利用隐藏测试用例计算Pass@1指标,以准确衡量模型性能。数据集还支持对上下文奖励黑客行为的分析,通过提取轮级错误并运行LLM评判器进行分类。整个流程强调异步代码执行与模块化设计,确保了实验的高效性与可扩展性。
背景与挑战
背景概述
在强化学习与大型语言模型融合的研究浪潮中,多轮代码生成任务因其迭代决策特性而备受关注。TACO-Cobalt数据集由俄亥俄州立大学自然语言处理小组于2026年创建,旨在支撑其提出的上下文赌博机学习方法的研究。该数据集基于TACO-verified原始数据构建,通过轨迹分割与扰动增强技术,为探索在线与离线强化学习的协同机制提供了关键实验载体。其核心研究聚焦于如何高效利用离线轨迹提升模型在动态编程环境中的泛化能力,相关成果已显著提升了R1-Distill与Qwen3等模型在LiveCodeBench基准上的性能表现,为代码智能领域的算法创新奠定了数据基础。
当前挑战
多轮代码生成任务面临的核心挑战在于模型需在部分可观测的决策过程中平衡探索与利用,同时避免对上下文奖励的过拟合现象。TACO-Cobalt在构建过程中需应对轨迹数据的质量筛选难题,包括对原始代码执行结果的噪声过滤、长序列提示的智能截断处理,以及对抗性测试用例的生成验证。此外,数据集还需解决离线轨迹与在线学习间的分布偏移问题,通过动态采样与最大方差降采样技术确保训练数据的多样性与代表性,这些技术挑战共同构成了该领域方法突破的关键瓶颈。
常用场景
经典使用场景
在强化学习与代码生成交叉领域,TACO-Cobalt数据集为多轮代码生成任务提供了结构化的轨迹数据。其经典使用场景在于支持上下文赌博机学习方法的训练与验证,研究者利用该数据集中的部分轨迹作为上下文提示,驱动大型语言模型完成单步代码补全,从而模拟迭代决策过程。这种设置有效衔接了离线轨迹收集与在线策略优化,为评估模型在动态编程环境中的适应能力提供了标准化基准。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于GRPO与VeRPO的多轮在线强化学习基线方法的比较研究,以及针对上下文奖励黑客行为的缓解策略探索。相关研究进一步扩展了轨迹扰动增强训练技术,并推动了如LiveCodeBench等基准测试的评估协议完善。这些工作共同深化了对迭代代码生成中探索-利用权衡机制的理解,为后续基于离线轨迹的元强化学习研究奠定了基础。
数据集最近研究
最新研究方向
在代码生成领域,强化学习与大型语言模型的结合正成为研究焦点。TACO-Cobalt数据集作为支撑多轮代码生成任务的关键资源,其最新研究方向聚焦于在线与离线强化学习的融合创新。通过将多轮代码生成建模为一步可恢复马尔可夫决策过程,研究者提出了基于上下文赌博机学习的Cobalt方法,该方法利用离线轨迹合成部分轨迹作为提示,驱动在线单步生成训练,有效平衡了训练成本与性能稳定性。前沿探索进一步涉及模型在上下文中的奖励黑客行为分析,并通过轨迹扰动增强训练以缓解此问题,显著提升了模型在LiveCodeBench等基准上的表现。这一方向不仅推动了迭代决策任务的技术突破,也为实际部署中效率与鲁棒性的权衡提供了新思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作