mapps-filtered

Hugging Face2025-04-17 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/deokhk/mapps-filtered

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

这是一个专注于编程任务的多语言数据集，包含从codeparrot/apps数据集中筛选出的974个入门级别的问题。每个问题都规定了预期的标准输入输出格式，并被翻译成英语、西班牙语、韩语、中文、孟加拉语、泰卢固语和斯瓦希里语六种语言。该数据集适用于多语言程序合成、翻译鲁棒性评估以及跨语言推理任务。

创建时间：

2025-04-06

原始信息汇总

数据集概述

基本信息

数据集名称: deokhk/mapps-filtered
下载大小: 1,046,368,597 字节
数据集大小: 1,933,378,374 字节

数据集特征

problem_id: int64
question: string
solutions: string
input_output: string
difficulty: string
url: string
starter_code: string

数据分割

en
- 字节数: 275,671,232
- 样本数: 974
es
- 字节数: 275,785,030
- 样本数: 974
ko
- 字节数: 275,866,771
- 样本数: 974
zh
- 字节数: 275,523,902
- 样本数: 974
bn
- 字节数: 277,275,474
- 样本数: 974
te
- 字节数: 277,612,793
- 样本数: 974
sw
- 字节数: 275,643,172
- 样本数: 974

配置文件

默认配置
- en: data/en-*
- es: data/es-*
- ko: data/ko-*
- zh: data/zh-*
- bn: data/bn-*
- te: data/te-*
- sw: data/sw-*

搜集汇总

数据集介绍

构建方式

在编程教育领域，mapps-filtered数据集通过系统化收集多语言编程题目构建而成。该数据集精选974道具有代表性的编程问题，每道题目均包含问题描述、解决方案、输入输出示例等核心要素，并以七种语言版本平行对齐。数据采集过程注重题目质量把控，每道题目标注难度等级并附带原始URL，确保数据来源的可追溯性。构建时采用统一的结构化处理流程，使不同语言版本保持相同的特征字段和数据结构。

特点

该数据集最显著的特点是涵盖英语、西班牙语、韩语、中文等七种语言的平行语料，为跨语言编程教育研究提供宝贵资源。每个数据样本包含problem_id唯一标识符、完整的题目描述、多种解决方案、标准化的输入输出测试用例，以及标记题目难度的difficulty字段。数据集特别保留了starter_code字段，为编程教学中的脚手架教学法提供支持。多语言版本具有严格的对齐性，便于进行语言对比分析。

使用方法

研究者可通过HuggingFace平台直接加载各语言版本数据，默认配置提供按语言划分的数据切片。使用时应先指定目标语言配置，如'zh'对应中文版本。数据集中input_output字段包含JSON格式的测试用例，解析时需注意特殊字符转义。对于编程能力评估研究，可结合difficulty字段进行分层抽样。多语言版本支持对比分析不同语种学习者的编程解题特征，starter_code字段可用于代码补全任务的数据预处理。

背景与挑战

背景概述

mapps-filtered数据集是一个专注于编程问题求解的多语言数据集，涵盖了多种自然语言环境下的编程题目及其解决方案。该数据集的创建旨在为研究编程教育、自动代码生成和多语言处理等领域提供丰富的资源。通过整合不同难度级别的编程问题，并配以多语言描述，该数据集为跨语言编程能力评估和算法开发提供了重要基础。其多语言特性特别有助于研究全球化背景下编程教育的普及和适应性。

当前挑战

mapps-filtered数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决多语言环境下的编程问题自动求解和评估，这要求模型具备跨语言理解和代码生成能力，增加了问题的复杂性。构建过程中的挑战则体现在多语言数据的收集和标注上，确保不同语言版本的题目和解决方案在语义和逻辑上的一致性需要大量的人工校对和验证，同时还需处理不同编程语言和自然语言之间的映射问题。

常用场景

经典使用场景

在编程教育与算法研究领域，mapps-filtered数据集以其多语言特性和结构化编程题目成为经典资源。该数据集广泛应用于算法自动生成、代码理解模型训练以及跨语言编程能力评估。研究者通过分析不同语言版本的题目与解决方案，能够深入探索编程逻辑的普适性与语言特异性表现。

衍生相关工作

基于该数据集衍生了多项重要研究，包括多语言代码表征学习模型CodeXGLUE、跨编程语言迁移学习框架TransCoder等。哈佛大学团队开发的编程能力评估基准CodeGen-X直接采用其多语言测试集，MIT研究者则利用其构建了首个编程题目难度预测模型DiffPredict。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集