five

koutch/JuICe

收藏
Hugging Face2023-03-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/JuICe
下载链接
链接失效反馈
官方服务:
资源简介:
JuICe数据集是一个用于研究基于长上下文历史的代码生成的数据集。数据集来源于Jupyter笔记本中的交互式编码环境,这些笔记本包含交替的代码片段单元格和自然语言标记,特别适合此任务。数据集包含编程问题和代码答案,答案可能需要笔记本中先前单元格的上下文信息。数据集分为验证集和测试集,分别包含1831和2115个实例。数据集支持自然语言到代码生成的任务,主要语言为Python和英语。

JuICe数据集是一个用于研究基于长上下文历史的代码生成的数据集。数据集来源于Jupyter笔记本中的交互式编码环境,这些笔记本包含交替的代码片段单元格和自然语言标记,特别适合此任务。数据集包含编程问题和代码答案,答案可能需要笔记本中先前单元格的上下文信息。数据集分为验证集和测试集,分别包含1831和2115个实例。数据集支持自然语言到代码生成的任务,主要语言为Python和英语。
提供机构:
koutch
原始信息汇总

数据集概述

数据集基本信息

  • 名称: JuICe
  • 描述: 用于研究基于长上下文历史的代码生成的大型远监督数据集。
  • 语言: 英语
  • 编程语言: Python
  • 许可证: cc-by-4.0

数据集特征

  • 问题 (question): 字符串类型,编程问题或练习。
  • 答案 (answer): 字符串类型,对编程问题的代码实现。
  • 笔记本 (notebook): 序列类型,包含以下子特征:
    • 文本 (text): 字符串类型,单元格的原始内容。
    • 单元格类型 (cell_type): 字符串类型,单元格类型(代码、标记或原始)。

数据集拆分

  • 验证集 (validation): 1831个示例,19578995字节。
  • 测试集 (test): 2115个示例,21651420字节。

数据集大小

  • 下载大小: 155457826字节。
  • 数据集大小: 41230415字节。
  • 规模类别: 1K<n<10K

任务类别

  • 问题回答

数据实例结构

  • 验证集: 包含question, answer, notebook特征,共1831行。
  • 测试集: 包含question, answer, notebook特征,共2115行。

数据字段

  • 问题: 上下文化的编程练习/问题,需在Jupyter笔记本的最后一个单元格中回答。
  • 笔记本: 完整的练习上下文,由Jupyter笔记本单元格的有序序列组成。
    • 文本: 单元格的原始内容。
    • 单元格类型: 单元格类型(代码、标记或原始)。
  • 答案: 回答问题的代码实现。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作