koutch/JuICe
收藏Hugging Face2023-03-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/JuICe
下载链接
链接失效反馈官方服务:
资源简介:
JuICe数据集是一个用于研究基于长上下文历史的代码生成的数据集。数据集来源于Jupyter笔记本中的交互式编码环境,这些笔记本包含交替的代码片段单元格和自然语言标记,特别适合此任务。数据集包含编程问题和代码答案,答案可能需要笔记本中先前单元格的上下文信息。数据集分为验证集和测试集,分别包含1831和2115个实例。数据集支持自然语言到代码生成的任务,主要语言为Python和英语。
JuICe数据集是一个用于研究基于长上下文历史的代码生成的数据集。数据集来源于Jupyter笔记本中的交互式编码环境,这些笔记本包含交替的代码片段单元格和自然语言标记,特别适合此任务。数据集包含编程问题和代码答案,答案可能需要笔记本中先前单元格的上下文信息。数据集分为验证集和测试集,分别包含1831和2115个实例。数据集支持自然语言到代码生成的任务,主要语言为Python和英语。
提供机构:
koutch
原始信息汇总
数据集概述
数据集基本信息
- 名称: JuICe
- 描述: 用于研究基于长上下文历史的代码生成的大型远监督数据集。
- 语言: 英语
- 编程语言: Python
- 许可证: cc-by-4.0
数据集特征
- 问题 (question): 字符串类型,编程问题或练习。
- 答案 (answer): 字符串类型,对编程问题的代码实现。
- 笔记本 (notebook): 序列类型,包含以下子特征:
- 文本 (text): 字符串类型,单元格的原始内容。
- 单元格类型 (cell_type): 字符串类型,单元格类型(代码、标记或原始)。
数据集拆分
- 验证集 (validation): 1831个示例,19578995字节。
- 测试集 (test): 2115个示例,21651420字节。
数据集大小
- 下载大小: 155457826字节。
- 数据集大小: 41230415字节。
- 规模类别: 1K<n<10K
任务类别
- 问题回答
数据实例结构
- 验证集: 包含question, answer, notebook特征,共1831行。
- 测试集: 包含question, answer, notebook特征,共2115行。
数据字段
- 问题: 上下文化的编程练习/问题,需在Jupyter笔记本的最后一个单元格中回答。
- 笔记本: 完整的练习上下文,由Jupyter笔记本单元格的有序序列组成。
- 文本: 单元格的原始内容。
- 单元格类型: 单元格类型(代码、标记或原始)。
- 答案: 回答问题的代码实现。



