atcoder_cot
收藏Hugging Face2025-03-22 更新2025-03-23 收录
下载链接:
https://huggingface.co/datasets/Nan-Do/atcoder_cot
下载链接
链接失效反馈官方服务:
资源简介:
Atcoder-CoT是一个概念验证数据集,旨在展示如何利用类似此处提供的[数据集](https://huggingface.co/datasets/Nan-Do/atcoder_contests)生成用于训练推理模型的合成数据集,尤其是用于监督微调(SFT)和知识蒸馏。该数据集结合了人类创建和调试的解决方案以及LLM生成的文本,以创建对话轮次。数据集目前包含一个字段:messages,该字段包含对话的轮次,其中用户提出他们试图解决的问题,提供错误的代码,并请求系统指导以获得正确答案和解释。对话被建模为一个JSON对象,其中包含一个元组列表,代表每个轮次的“角色”和“内容”,如果“角色”是系统,它还包括一个名为“reasoning”的字段,包含系统的思考。数据集的质量已经在不依赖LLM评估的情况下进行了评估,并且已经丢弃了质量较低的对话,以确保数据集的高质量。数据集包括各种编程语言编写的解决方案,尽管大多数是用C++和Python编写的。
创建时间:
2025-03-19
搜集汇总
数据集介绍

构建方式
Atcoder-CoT数据集通过结合人类编写和调试的代码解决方案与大型语言模型(LLM)生成的文本,构建了一个用于训练推理模型的合成数据集。该数据集的核心在于模拟用户与系统之间的对话,用户提出问题并提供错误代码,系统则提供正确的解答和解释。数据集的构建过程中,对话被建模为包含角色和内容的JSON对象,系统角色的对话还包括推理过程。为确保数据质量,数据集在构建过程中剔除了低质量的对话,且未依赖LLM进行评估。
特点
Atcoder-CoT数据集的特点在于其专注于Atcoder平台上的竞争性编程问题,这些问题以其原创性和挑战性著称。数据集中的对话涵盖了多种编程语言,主要集中在C++和Python。与以往依赖LLM生成解决方案的数据集不同,Atcoder-CoT采用了人类验证的代码,并仅使用LLM构建对话,从而确保了数据的准确性和实用性。此外,数据集的对话质量经过独立评估,进一步提升了其作为训练资源的可靠性。
使用方法
Atcoder-CoT数据集适用于监督微调(SFT)和知识蒸馏等任务,尤其适合用于提升模型在代码推理方面的能力。用户可以通过加载数据集并解析其JSON格式的对话内容,模拟用户与系统之间的交互过程。数据集中的对话结构清晰,便于提取问题和解答对,可用于训练模型生成高质量的代码解决方案。此外,数据集的多语言特性使其能够支持跨语言的代码推理任务。
背景与挑战
背景概述
Atcoder-CoT数据集由Fernando Tarin Morales于2025年创建,旨在展示如何利用Atcoder平台上的编程竞赛数据生成合成数据集,以训练推理模型,特别是用于监督微调(SFT)和知识蒸馏。该数据集结合了人类编写和调试的代码解决方案与大型语言模型(LLM)生成的文本,构建了对话式交互场景。Atcoder作为一个广受欢迎的编程竞赛平台,以其原创性和挑战性的算法优化问题著称,为数据集提供了丰富的素材。该数据集的核心研究问题在于如何通过对话形式提升模型在代码推理和问题解决方面的能力,尤其是在多编程语言环境下的表现。
当前挑战
Atcoder-CoT数据集面临的挑战主要体现在两个方面。首先,在解决领域问题上,尽管该数据集通过对话形式模拟了用户与系统之间的交互,但如何确保模型能够准确理解并生成高质量的代码解释仍是一个难题。其次,在数据构建过程中,尽管数据集依赖于人类验证的代码解决方案,但如何有效筛选和剔除低质量对话内容,以确保数据集的整体质量,也是一个关键挑战。此外,尽管数据集涵盖了多种编程语言,但如何平衡不同语言的样本分布,避免数据偏差,仍需进一步优化。
常用场景
经典使用场景
Atcoder-CoT数据集在代码生成和推理模型的训练中展现了其独特的价值。该数据集通过模拟用户与系统之间的对话,展示了如何从错误的代码片段中引导出正确的解决方案。这种对话式的数据格式特别适用于监督微调(SFT)和知识蒸馏任务,能够有效提升模型在代码推理和问题解决方面的能力。
解决学术问题
Atcoder-CoT数据集解决了在代码生成和推理领域中常见的模型训练数据不足和质量参差不齐的问题。通过使用人类编写和调试的代码,结合大语言模型生成的对话内容,该数据集为研究者提供了一个高质量的训练资源。其独特的对话结构不仅帮助模型理解代码错误的根源,还促进了模型在复杂编程问题上的推理能力。
衍生相关工作
Atcoder-CoT数据集的推出为相关领域的研究提供了新的方向。基于该数据集,研究者可以进一步探索如何优化代码生成模型的推理能力,或者开发新的对话式编程辅助工具。此外,该数据集还为其他竞争性编程平台的数据集构建提供了参考,推动了类似数据集的发展和应用。
以上内容由遇见数据集搜集并总结生成



