idea-first-code-later-cp

Hugging Face2026-01-19 更新2026-01-20 收录

下载链接：

https://huggingface.co/datasets/samahadhoud/idea-first-code-later-cp

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含83个竞争性编程问题的精选基准，旨在评估LLMs在算法问题解决方面的能力，与代码生成分开。数据集包括Markdown格式的问题陈述、测试用例（输入/输出对）、解决方案分析（如可用）和竞赛元数据（难度、解决率等）。问题来源于2017-2025年的ICPC亚洲区域赛和新加坡国立大学的CS3233课程考试。数据集结构包括标识符、竞赛信息、问题详情和测试用例，并根据解决率对问题难度进行了分组。

创建时间：

2026-01-17

原始信息汇总

数据集概述

基本信息

数据集名称: Idea First, Code Later: CP Benchmark
托管地址: https://huggingface.co/datasets/samahadhoud/idea-first-code-later-cp
许可证: MIT License
任务类别: 文本生成、问答
主要语言: 英语
规模类别: n<1K

数据集目的

本数据集是一个包含83个竞赛编程问题的精选基准，旨在独立于代码生成来评估大型语言模型在算法问题解决上的能力。数据集为论文《"Idea First, Code Later: Disentangling Problem Solving from Code Generation in Evaluating LLMs for Competitive Programming"》而创建。

数据来源与构成

数据来源于七个未托管在主要公共竞赛编程平台（如Codeforces、AtCoder）的比赛，以降低数据污染风险。具体来源如下：

ICPC亚洲太平洋锦标赛: 2024年
ICPC雅加达区域赛: 2017年、2018年、2019年
新加坡国立大学CS3233课程期中考试: 2023年、2024年、2025年

数据集组成详情

比赛名称	年份	来源	队伍数量	问题数量
CS3233 Midterm Contest	2023	NUS	25	11
CS3233 Midterm Contest	2024	NUS	15	12
CS3233 Midterm Contest	2025	NUS	16	11
ICPC Asia Pacific Championship	2024	GitHub	65	13
ICPC Asia Jakarta Regional	2017	GitHub	80	12
ICPC Asia Jakarta Regional	2018	GitHub	75	12
ICPC Asia Jakarta Regional	2019	GitHub	80	12
总计	--	--	--	83

内容详情

每个问题包包含以下内容：

原始问题描述: Markdown格式。
黄金题解: 由出题人或测试者编写的解决方案分析。
完整的官方测试套件: 包含示例和隐藏测试用例。

难度分组

根据官方记分板上的解题率（成功解决问题的队伍比例），将每个比赛中的问题按解题率排序，并划分为三个比赛内相对的三分位组：

T1: 最容易的三分之一
T2: 中间的三分之一
T3: 最难的三分之一

数据结构

每个数据示例包含以下字段：

标识符

problem_id: 唯一标识符
problem_code: 问题代码（A, B, C...）
problem_slug: URL友好的问题名称
problem_title: 完整的问题标题

比赛信息

contest_name: 比赛标识符
contest_full_name: 完整比赛名称
year: 比赛年份
source: 来源URL/仓库
total_teams: 比赛总队伍数
total_problems: 比赛总问题数

问题详情

statement: Markdown格式的问题描述
analysis: 题解/解决方案分析
time_limit: 解决方案时间限制
memory_limit: 内存限制
author: 问题作者
analysis_author: 题解作者

测试用例

sample_test_cases_input: 示例输入列表
sample_test_cases_output: 示例输出列表
hidden_test_cases_input: 隐藏输入列表
hidden_test_cases_output: 隐藏输出列表
has_special_judge: 布尔值，表示问题是否接受多个正确答案
special_judge_code: 用于验证输出的C++评分器代码
special_judge_format: 评分器格式（"standard" 或 "jakarta2017"）
uses_kattis: 布尔值，CS3233问题为True
kattis_problem_id: 用于提交的Kattis问题ID
contest_standings_csv: 完整的比赛记分板CSV
scoreboard_url: 比赛记分板原始URL

比赛统计

teams_solved: 成功解题的队伍数
teams_wrong_answer: 答案错误的队伍数
teams_unattempted: 未尝试的队伍数
teams_tried: 尝试过的队伍数
solve_percentage: 解题百分比
first_solve_time: 首次解题时间（分钟）
average_solve_time: 平均解题时间（分钟）
total_attempts: 总提交尝试次数
average_attempts: 每队平均尝试次数
Difficulty_Tertile: 比赛内的难度三分位排名

使用说明

加载数据集

python from datasets import load_dataset dataset = load_dataset("samahadhoud/idea-first-code-later-cp")

测试运行器

数据集提供了测试运行器（hf_test_runner）用于评估解决方案，可自动处理：

示例和隐藏测试用例
特殊评分器（针对有多个有效答案的问题）
Kattis提交（针对CS3233问题）
内存和时间限制

版权与许可

CS3233部分: 包含新加坡国立大学课程评估材料。已获得课程讲师的版权许可，允许在数据集中包含并重新分发这些材料（问题描述、黄金题解）。CS3233的黄金题解是此前未公开的私有课程材料。
数据集整体采用MIT许可证。

引用

若在研究中使用本数据集，请引用以下论文： bibtex @misc{hadhoud2026ideafirstcodelater, title={Idea First, Code Later: Disentangling Problem Solving from Code Generation in Evaluating LLMs for Competitive Programming}, author={Sama Hadhoud and Alaa Elsetohy and Frederikus Hudi and Jan Christian Blaise Cruz and Steven Halim and Alham Fikri Aji}, year={2026}, eprint={2601.11332}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.11332} }

搜集汇总

数据集介绍

构建方式

在算法竞赛领域，评估大型语言模型的能力往往需要将问题解决与代码生成过程分离。为此，该数据集精心选取了83道来自非主流公开平台的竞赛题目，包括ICPC亚洲区域赛及新加坡国立大学CS3233课程的中期考试题目，时间跨度覆盖2017年至2025年。每道题目均包含原始的问题描述、官方题解以及完整的测试用例集，确保了评估的准确性和全面性。数据构建过程中，依据官方成绩单中的解题率，将同一赛事中的题目按难度划分为三个等级，从而在跨赛事聚合时保持了难度分布的平衡与内在一致性。

特点

该数据集的一个显著特点是其来源的独特性和低污染风险。所有题目均未在主流竞赛平台上公开，有效降低了模型训练数据中可能存在的泄露问题。数据集提供了丰富的元数据，包括每道题目的解题率、首次解题时间、平均尝试次数等统计信息，并依据解题率进行了难度分级。此外，约40%的题目配备了特殊评判器，能够处理多解输出的情况，而CS3233部分的题目则支持通过Kattis平台进行在线提交与评测，增强了评估的实践性和真实性。

使用方法

使用者可通过Hugging Face的`datasets`库便捷加载该数据集，获取包括问题描述、测试用例及题解在内的完整信息。为便于模型评估，数据集配套提供了专用的测试运行器，能够自动处理样例与隐藏测试用例的执行、特殊评判器的调用，并严格遵守题目设定的时间和内存限制。对于CS3233部分的题目，评估需借助Kattis命令行工具进行在线提交。这种设计使得研究者能够专注于评估模型在算法构思层面的能力，而将代码实现与运行环境的复杂性交由标准化工具处理。

背景与挑战

背景概述

在大型语言模型（LLM）评估领域，传统基准往往将算法问题解决能力与代码生成能力混为一谈，难以精确衡量模型的核心推理水平。为此，研究团队于2026年提出了“Idea First, Code Later: CP Benchmark”数据集，旨在解耦这两个维度，专门评估LLM在竞争性编程中的纯算法思维。该数据集由新加坡国立大学等机构的研究人员构建，精选了83道来自ICPC区域赛及大学课程考试的题目，时间跨度覆盖2017至2025年。通过提供完整的官方测试套件、解题分析和按解题率分级的难度标签，该数据集为LLM的算法推理能力评估设立了更精细的基准，推动了编程智能评估方法学的演进。

当前挑战

该数据集致力于解决竞争性编程中算法问题解决能力的独立评估挑战，其核心在于区分模型对问题本质的理解与具体代码实现。构建过程中面临多重困难：首先，为降低数据污染风险，需刻意避开主流公开平台，转而从区域赛事和课程材料中筛选题目，这增加了数据收集与整理的复杂度；其次，部分题目涉及特殊评判机制（如多解验证），需额外开发标准化测试框架；此外，课程材料涉及版权许可，需与相关机构协商授权；最后，题目难度标注依赖官方解题率统计，但不同赛事评分标准存在差异，需设计跨赛事的相对难度分级方法以保持评估一致性。

常用场景

经典使用场景

在算法与编程语言模型评估领域，该数据集为研究者提供了精准的基准测试工具。其核心应用场景在于将大型语言模型的算法问题解决能力与代码生成能力进行解耦评估。通过精选自ICPC区域赛和大学课程考试的83道竞赛题目，数据集构建了包含完整测试套件和官方题解的标准化评估环境。研究者可借助该数据集系统分析模型在理解问题、设计算法等抽象思维层面的表现，而非仅仅关注代码语法的正确性。

解决学术问题

该数据集有效解决了当前代码生成评估中普遍存在的评估混淆问题。传统基准测试往往将算法思维与代码实现能力混为一谈，难以准确诊断模型失败的根本原因。通过提供独立的问题解决评估框架，该数据集使研究者能够分离出模型在逻辑推理、算法设计等高层认知能力上的缺陷。这种解耦评估方法为深入理解语言模型的推理机制提供了关键工具，推动了代码生成研究从表面正确性评估向深层认知能力分析的范式转变。

衍生相关工作

围绕该数据集已衍生出多项重要的研究工作。部分研究聚焦于构建更精细的评估指标，开发了针对算法思维各维度的量化评估体系。另有工作扩展了数据集的适用范围，将其与程序语义理解、代码调试等任务相结合。在模型架构方面，研究者基于该数据集的评估结果，提出了专门增强算法推理能力的模型改进方法。这些衍生工作共同推动了编程智能评估向多层次、多维度的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集