NTU-NLP-sg/xCodeEval

Name: NTU-NLP-sg/xCodeEval
Creator: NTU-NLP-sg
Published: 2025-09-18 09:20:18
License: 暂无描述

Hugging Face2025-09-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NTU-NLP-sg/xCodeEval

下载链接

链接失效反馈

官方服务：

资源简介：

xCodeEval是目前最大的可执行多语言多任务基准测试数据集，包含2500万个文档级代码示例，覆盖约7500个独特问题，涉及17种编程语言。该数据集包含七种任务，涉及代码理解、生成、翻译和检索，并采用基于执行的评估方法。数据集还开发了一个支持所有编程语言的代码执行引擎ExecEval，并提出了基于几何平均和图论原理的数据分割和选择方案，以平衡多个属性的数据分布。

提供机构：

NTU-NLP-sg

原始信息汇总

数据集概述

基本信息

名称: xCodeEval
语言: 代码, 英语
语言创建方式: 发现, 专家生成
许可证: cc-by-nc-4.0
多语言性: 多语言
大小: 1M<n<10M, 10M<n<100M
来源: 原始数据

任务类别

翻译
令牌分类
文本到文本生成
文本检索
文本生成
文本分类
特征提取
问答

数据集描述

xCodeEval 是一个大规模的多语言多任务基准，包含约25M文档级编码示例，覆盖约7.5K独特问题和17种编程语言。
数据集包含七个任务，涉及代码理解、生成、翻译和检索，并采用基于执行的评估。
开发了一个支持所有编程语言的多语言代码执行引擎 ExecEval。
提出了一种基于几何平均和图论原理的数据分割和选择模式，以平衡多属性数据分布。

数据下载

支持通过Hugging Face的load_dataset() API加载数据集。
数据也可以通过Git LFS从Hugging Face下载。

任务详情

标签分类
代码编译
程序合成
代码翻译
自动程序修复
代码-代码检索
自然语言-代码检索

共享数据

problem_descriptions.jsonl
unittest_db.json

这些文件位于Hugging Face数据集仓库的主分支根目录中，用于多个任务，通过唯一ID src_uid 进行数据检索，以避免数据冗余。

搜集汇总

数据集介绍

构建方式

xCodeEval数据集的构建基于多语言、多任务的代码理解、生成、翻译和检索需求，涵盖了17种编程语言，包含约7500个独特问题的2500万份文档级代码示例。数据集的构建采用了基于几何平均和图论原理的数据分割与选择策略，确保数据在多个属性上的分布均衡。此外，数据集还引入了基于测试用例的多语言代码执行引擎ExecEval，支持所有编程语言的执行评估。

特点

xCodeEval数据集以其多语言、多任务的特点脱颖而出，涵盖了代码理解、生成、翻译和检索等七项任务。其独特之处在于采用了执行级别的评估方法，确保了代码的可执行性和实用性。数据集规模庞大，包含数百万条代码示例，且通过精心设计的数据分割策略，确保了数据分布的多样性和均衡性。此外，数据集还提供了丰富的元数据，如问题描述、输入输出规范、时间与内存限制等，为研究提供了全面的支持。

使用方法

xCodeEval数据集可通过HuggingFace的`load_dataset()` API加载，支持按任务类型加载特定子集，如程序合成、代码翻译、标签分类等。对于大规模数据加载，建议使用流式模式或忽略验证以提升效率。此外，数据集还支持通过Git LFS下载完整数据或特定部分数据。使用过程中，需注意`problem_descriptions.jsonl`和`unittest_db.json`两个核心文件，它们通过唯一ID与任务数据关联，避免了数据冗余。

背景与挑战

背景概述

xCodeEval是由新加坡南洋理工大学（NTU）的自然语言处理研究团队于2023年推出的一个大规模多语言多任务基准数据集，旨在推动代码理解、生成、翻译和检索等领域的研究。该数据集包含约2500万份文档级代码示例，覆盖17种编程语言，涉及7500多个独特问题。xCodeEval不仅提供了丰富的代码数据，还引入了基于执行的评估方法，通过其开发的ExecEval多语言代码执行引擎，支持所有编程语言的执行验证。该数据集的推出为代码智能领域的研究提供了重要的基准和工具，推动了多语言代码处理技术的发展。

当前挑战

xCodeEval在构建和应用过程中面临多重挑战。首先，代码理解、生成和翻译等任务需要处理多语言代码的复杂性和多样性，尤其是在跨语言代码转换时，语义一致性和语法正确性的保持尤为困难。其次，数据集的构建涉及大规模代码数据的收集与标注，如何确保数据的质量和多样性是一个关键问题。此外，基于执行的评估方法虽然提高了评估的准确性，但也带来了计算资源消耗大、执行环境复杂等技术挑战。最后，数据分布的不平衡问题需要通过创新的数据分割和选择策略来解决，以确保模型在不同任务和语言上的泛化能力。

常用场景

经典使用场景

xCodeEval数据集在代码理解和生成领域具有广泛的应用，尤其是在多语言编程任务中。该数据集通过提供25M个文档级代码示例，覆盖了17种编程语言，支持代码理解、生成、翻译和检索等多种任务。其经典使用场景包括程序合成、代码翻译和自动程序修复，这些任务通常需要处理复杂的代码逻辑和多语言环境。

衍生相关工作

xCodeEval数据集衍生了许多相关的研究工作，尤其是在代码搜索和自然语言处理领域。例如，基于该数据集的研究提出了新的代码搜索算法和自然语言处理技术，用于提高代码检索的准确性和效率。此外，该数据集还推动了多语言代码生成和翻译模型的发展，为未来的编程语言处理研究提供了重要的数据支持。

数据集最近研究