koutch/intro_prog
收藏Hugging Face2023-06-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/intro_prog
下载链接
链接失效反馈官方服务:
资源简介:
IntroProg数据集是一个收集了来自不同大学入门编程课程中学生提交作业的集合。目前,数据集包含了来自都柏林城市大学和新加坡国立大学的提交作业。都柏林的编程数据集由都柏林大学入门编程课程的学生提交作业组成,涵盖了三个学年的多个编程课程。新加坡的数据集包含了361名本科生在国立大学新加坡分校的Python编程入门课程中的2442个正确和1783个错误的程序尝试。数据集支持的任务包括程序合成、程序修复和错误分类。数据集的结构包括多个配置,如元数据、数据和修复配置,每个配置都有特定的用途。数据集中的字段包括提交ID、用户ID、提交日期、函数代码、函数名称、作业ID、学年、模块、测试、描述和正确性等。数据集还提供了训练和测试的分割,以及相关的引用和许可信息。
IntroProg数据集是一个收集了来自不同大学入门编程课程中学生提交作业的集合。目前,数据集包含了来自都柏林城市大学和新加坡国立大学的提交作业。都柏林的编程数据集由都柏林大学入门编程课程的学生提交作业组成,涵盖了三个学年的多个编程课程。新加坡的数据集包含了361名本科生在国立大学新加坡分校的Python编程入门课程中的2442个正确和1783个错误的程序尝试。数据集支持的任务包括程序合成、程序修复和错误分类。数据集的结构包括多个配置,如元数据、数据和修复配置,每个配置都有特定的用途。数据集中的字段包括提交ID、用户ID、提交日期、函数代码、函数名称、作业ID、学年、模块、测试、描述和正确性等。数据集还提供了训练和测试的分割,以及相关的引用和许可信息。
提供机构:
koutch
原始信息汇总
数据集概述
数据集名称
IntroProg
数据集组成
IntroProg 数据集包含来自都柏林城市大学和新加坡国立大学的学生编程作业提交。数据集分为多个子配置,每个子配置对应不同的数据类型和用途。
子配置详情
-
都柏林元数据 (
dublin_metadata)- 特征:
- assignment_id: 字符串
- func_name: 字符串
- reference_solution: 字符串
- description: 字符串
- test: 字符串
- 分割:
- 训练集: 36个样本,18983字节
- 测试集: 35个样本,17403字节
- 下载大小: 41873字节
- 数据集大小: 36386字节
- 特征:
-
新加坡元数据 (
singapore_metadata)- 特征: 同上
- 分割:
- 训练集: 5个样本,5577字节
- 下载大小: 6139字节
- 数据集大小: 5577字节
-
都柏林数据 (
dublin_data)- 特征:
- submission_id: int32
- func_code: 字符串
- assignment_id: 字符串
- func_name: 字符串
- description: 字符串
- test: 字符串
- correct: bool
- user: 字符串
- academic_year: int32
- 分割:
- 训练集: 7486个样本,4412068字节
- 测试集: 14259个样本,7737585字节
- 下载大小: 15756562字节
- 数据集大小: 12149653字节
- 特征:
-
新加坡数据 (
singapore_data)- 特征: 同上
- 分割:
- 训练集: 4394个样本,5098928字节
- 下载大小: 5705043字节
- 数据集大小: 5098928字节
-
都柏林修复 (
dublin_repair)- 特征:
- annotation: 字符串
- 分割:
- 训练集: 307个样本,229683字节
- 测试集: 1698个样本,1451820字节
- 下载大小: 1929518字节
- 数据集大小: 1681503字节
- 特征:
-
新加坡修复 (
singapore_repair)- 特征: 同上
- 分割:
- 训练集: 18个样本,18979字节
- 下载大小: 21737字节
- 数据集大小: 18979字节
-
新喀里多尼亚元数据 (
newcaledonia_metadata)- 特征: 同上
- 分割:
- 训练集: 9个样本,9053字节
- 下载大小: 9760字节
- 数据集大小: 9053字节
-
新喀里多尼亚数据 (
newcaledonia_data)- 特征:
- correct: bool
- 分割:
- 训练集: 1201个样本,932024字节
- 下载大小: 1198518字节
- 数据集大小: 932024字节
- 特征:
数据集用途
- 元数据: 用于程序合成评估。
- 数据: 包含所有提交以及是否通过测试的指示。
- 修复: 包含对错误程序的修正注释,用于程序精炼任务。
编程语言
所有作业均使用Python编写。



