Humanitys Last Code Exam (HLCE)

github2025-06-17 更新2025-06-20 收录

下载链接：

https://github.com/Humanity-s-Last-Code-Exam/HLCE

下载链接

链接失效反馈

官方服务：

资源简介：

HLCE（Humanitys Last Code Exam）是一个包含235个最具挑战性问题的数据集，这些问题来自2010-2024年的国际大学生程序设计竞赛（ICPC World Finals）和国际信息学奥林匹克竞赛（IOI）。该数据集旨在更好地反映高级推理和代码生成能力。

The HLCE (Humanity's Last Code Exam) dataset comprises 235 of the most challenging problems, sourced from the International Collegiate Programming Contest (ICPC) World Finals and the International Olympiad in Informatics (IOI) from 2010 to 2024. This dataset is designed to more accurately reflect advanced reasoning and code generation skills.

创建时间：

2025-05-29

原始信息汇总

Humanitys Last Code Exam (HLCE) 数据集概述

数据集简介

名称: Humanitys Last Code Exam (HLCE)
目的: 评估大型语言模型(LLMs)在高级推理和代码生成方面的能力
来源: 包含235个最具挑战性的编程问题，来自：
- 国际大学生程序设计竞赛(ICPC World Finals)
- 国际信息学奥林匹克竞赛(IOI)
时间跨度: 2010-2024年

数据集特点

难度级别: 当前主流基准测试中最具挑战性的编程问题
适用对象: 旨在挑战最先进的LLMs

获取方式

下载地址: https://huggingface.co/HumanLastCodeExam

评估方法

环境要求

Python 3.8或更高版本
Git

评估步骤

克隆仓库： bash git clone git@github.com:Humanity-s-Last-Code-Exam/HLCE.git cd HLCE
安装依赖： bash pip install -e .
特定评估指导：
- IOI评估: 遵循IOI评估说明
- ICPC-World-Finals评估: 遵循ICPC评估说明

排行榜

提交说明: 遵循结果提交指南

引用格式

bibtex @misc{li2025humanityscodeexamadvanced, title={Humanitys Last Code Exam: Can Advanced LLMs Conquer Humans Hardest Code Competition?}, author={Xiangyang Li and Xiaopeng Li and Kuicai Dong and Quanhu Zhang and Rongju Ruan and Xinyi Dai and Xiaoshuang Liu and Shengchun Xu and Yasheng Wang and Ruiming Tang}, year={2025}, eprint={2506.12713}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2506.12713}, }

许可信息

代码许可: Apache 2.0
数据许可: CC BY NC 4.0
使用限制: 仅限研究用途

搜集汇总

数据集介绍

构建方式

在代码生成领域，大型语言模型的能力评估亟需更具挑战性的基准测试。HLCE数据集通过精选2010至2024年间国际大学生程序设计竞赛（ICPC）和国际信息学奥林匹克竞赛（IOI）中最具代表性的235道难题，构建了一个高难度的代码生成评估平台。该数据集采用严格的筛选标准，确保每道题目都能有效检验模型的高级推理和复杂代码生成能力，其构建过程充分考虑了竞赛题目的原创性和技术深度。

特点

作为当前最具挑战性的代码生成基准，HLCE数据集展现出鲜明的技术特征。其题目来源于全球顶级编程赛事的最难题库，涵盖算法设计、数据结构优化等核心计算机科学领域。相比主流基准测试，该数据集显著提升了问题的复杂度和解决难度，能够有效区分不同层次的语言模型性能。特别值得注意的是，数据集完整保留了竞赛原题的测试用例和评分标准，为模型评估提供了可靠的度量依据。

使用方法

研究人员可通过Hugging Face平台直接获取HLCE数据集资源。使用前需配置Python 3.8及以上环境，并通过Git克隆项目仓库完成环境搭建。数据集针对ICPC和IOI两类题型分别提供了详细的评估脚本，用户需按照指定路径执行测试流程。对于希望参与模型性能排名的研究者，项目方提供了专门的成果提交指南，确保评估过程的规范性和可比性。整个使用流程充分考虑了科研场景下的可复现性和便捷性。

背景与挑战

背景概述

Humanity's Last Code Exam (HLCE) 数据集由Xiangyang Li、Xiaopeng Li等研究人员于2025年推出，旨在评估大型语言模型（LLMs）在解决高难度编程问题上的能力。该数据集精选了2010至2024年间国际大学生程序设计竞赛（ICPC World Finals）和国际信息学奥林匹克竞赛（IOI）中最具挑战性的235道题目，填补了主流基准测试在高级推理和代码生成能力评估上的空白。HLCE的建立不仅推动了LLMs在复杂编程任务中的性能边界，也为相关研究提供了新的评估标准。

当前挑战

HLCE数据集面临的挑战主要体现在两个方面。其一，领域问题挑战：当前主流基准测试中的题目难度普遍偏低，难以有效衡量先进LLMs在解决高复杂度编程问题上的真实能力，HLCE通过引入竞赛级难题，旨在突破这一局限。其二，构建过程挑战：数据集的题目来源于顶级编程竞赛，需确保题目的多样性、代表性以及评估的公平性，这对数据筛选和评估框架的设计提出了较高要求。

常用场景

经典使用场景

在人工智能领域，代码生成能力是评估大型语言模型（LLMs）核心性能的关键指标。Humanity's Last Code Exam (HLCE) 数据集通过整合国际大学生程序设计竞赛（ICPC World Finals）和国际信息学奥林匹克竞赛（IOI）中最具挑战性的235道题目，为研究者和开发者提供了一个高难度的测试平台。该数据集特别适用于评估高级LLMs在复杂算法设计和高效代码实现方面的表现，填补了现有基准测试在难度上的不足。

实际应用

在实际应用中，HLCE数据集为企业和研究机构提供了一种可靠的工具，用于测试和优化其LLMs在解决复杂编程问题时的表现。例如，科技公司可以利用该数据集评估其代码生成模型在竞赛级题目上的性能，从而指导模型的进一步改进。此外，教育机构也可以借助这些高难度题目，设计更高效的编程训练课程，提升学生的算法能力。

衍生相关工作

HLCE数据集的发布催生了一系列相关研究工作，特别是在代码生成和算法优化领域。许多研究团队基于该数据集开发了新的评估方法和模型优化技术，进一步推动了LLMs在复杂任务中的应用。例如，部分研究聚焦于如何通过增强模型的逻辑推理能力来提升其在HLCE题目上的表现，而另一些研究则探索了多模态输入在代码生成任务中的潜在价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集