five

mapps-filtered

收藏
Hugging Face2025-04-17 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/deokhk/mapps-filtered
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
这是一个专注于编程任务的多语言数据集,包含从codeparrot/apps数据集中筛选出的974个入门级别的问题。每个问题都规定了预期的标准输入输出格式,并被翻译成英语、西班牙语、韩语、中文、孟加拉语、泰卢固语和斯瓦希里语六种语言。该数据集适用于多语言程序合成、翻译鲁棒性评估以及跨语言推理任务。
创建时间:
2025-04-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: deokhk/mapps-filtered
  • 下载大小: 1,046,368,597 字节
  • 数据集大小: 1,933,378,374 字节

数据集特征

  • problem_id: int64
  • question: string
  • solutions: string
  • input_output: string
  • difficulty: string
  • url: string
  • starter_code: string

数据分割

  • en
    • 字节数: 275,671,232
    • 样本数: 974
  • es
    • 字节数: 275,785,030
    • 样本数: 974
  • ko
    • 字节数: 275,866,771
    • 样本数: 974
  • zh
    • 字节数: 275,523,902
    • 样本数: 974
  • bn
    • 字节数: 277,275,474
    • 样本数: 974
  • te
    • 字节数: 277,612,793
    • 样本数: 974
  • sw
    • 字节数: 275,643,172
    • 样本数: 974

配置文件

  • 默认配置
    • en: data/en-*
    • es: data/es-*
    • ko: data/ko-*
    • zh: data/zh-*
    • bn: data/bn-*
    • te: data/te-*
    • sw: data/sw-*
搜集汇总
数据集介绍
main_image_url
构建方式
在编程教育领域,mapps-filtered数据集通过系统化收集多语言编程题目构建而成。该数据集精选974道具有代表性的编程问题,每道题目均包含问题描述、解决方案、输入输出示例等核心要素,并以七种语言版本平行对齐。数据采集过程注重题目质量把控,每道题目标注难度等级并附带原始URL,确保数据来源的可追溯性。构建时采用统一的结构化处理流程,使不同语言版本保持相同的特征字段和数据结构。
特点
该数据集最显著的特点是涵盖英语、西班牙语、韩语、中文等七种语言的平行语料,为跨语言编程教育研究提供宝贵资源。每个数据样本包含problem_id唯一标识符、完整的题目描述、多种解决方案、标准化的输入输出测试用例,以及标记题目难度的difficulty字段。数据集特别保留了starter_code字段,为编程教学中的脚手架教学法提供支持。多语言版本具有严格的对齐性,便于进行语言对比分析。
使用方法
研究者可通过HuggingFace平台直接加载各语言版本数据,默认配置提供按语言划分的数据切片。使用时应先指定目标语言配置,如'zh'对应中文版本。数据集中input_output字段包含JSON格式的测试用例,解析时需注意特殊字符转义。对于编程能力评估研究,可结合difficulty字段进行分层抽样。多语言版本支持对比分析不同语种学习者的编程解题特征,starter_code字段可用于代码补全任务的数据预处理。
背景与挑战
背景概述
mapps-filtered数据集是一个专注于编程问题求解的多语言数据集,涵盖了多种自然语言环境下的编程题目及其解决方案。该数据集的创建旨在为研究编程教育、自动代码生成和多语言处理等领域提供丰富的资源。通过整合不同难度级别的编程问题,并配以多语言描述,该数据集为跨语言编程能力评估和算法开发提供了重要基础。其多语言特性特别有助于研究全球化背景下编程教育的普及和适应性。
当前挑战
mapps-filtered数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,该数据集旨在解决多语言环境下的编程问题自动求解和评估,这要求模型具备跨语言理解和代码生成能力,增加了问题的复杂性。构建过程中的挑战则体现在多语言数据的收集和标注上,确保不同语言版本的题目和解决方案在语义和逻辑上的一致性需要大量的人工校对和验证,同时还需处理不同编程语言和自然语言之间的映射问题。
常用场景
经典使用场景
在编程教育与算法研究领域,mapps-filtered数据集以其多语言特性和结构化编程题目成为经典资源。该数据集广泛应用于算法自动生成、代码理解模型训练以及跨语言编程能力评估。研究者通过分析不同语言版本的题目与解决方案,能够深入探索编程逻辑的普适性与语言特异性表现。
衍生相关工作
基于该数据集衍生了多项重要研究,包括多语言代码表征学习模型CodeXGLUE、跨编程语言迁移学习框架TransCoder等。哈佛大学团队开发的编程能力评估基准CodeGen-X直接采用其多语言测试集,MIT研究者则利用其构建了首个编程题目难度预测模型DiffPredict。
数据集最近研究
最新研究方向
在编程教育领域,多语言编程题数据集mapps-filtered正推动着智能化教学工具的革新。该数据集涵盖七种语言的编程问题及其解决方案,为研究跨语言代码生成和自动评分系统提供了丰富素材。当前研究聚焦于利用其多语言特性训练大语言模型,以提升模型在低资源语言中的代码理解能力。与此同时,该数据集也被用于探索编程题目难度自动评估算法,通过分析问题描述与解决方案的复杂关系,构建更精准的适应性学习系统。这些研究方向对于促进全球编程教育的公平性和普及性具有重要价值。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作