five

JuICe

收藏
arXiv2019-10-09 更新2024-06-21 收录
下载链接:
https://github.com/rajasagashe/juice
下载链接
链接失效反馈
官方服务:
资源简介:
JuICe数据集是由华盛顿大学保罗·G·艾伦计算机科学与工程学院的研究团队创建的,专注于开放域基于上下文的代码生成。该数据集包含超过150万个示例,主要来源于公开的Jupyter笔记本,涵盖了广泛的编程任务和应用场景。数据集的创建过程涉及从GitHub收集和筛选高质量的Jupyter笔记本,确保数据的相关性和实用性。JuICe数据集特别适用于研究代码生成的上下文依赖性,旨在通过机器学习模型自动生成代码块,辅助程序员进行快速原型开发和协作。

The JuICe dataset was created by a research team from the Paul G. Allen School of Computer Science & Engineering at the University of Washington, focusing on open-domain context-aware code generation. This dataset contains over 1.5 million examples, primarily sourced from public Jupyter notebooks, and covers a wide range of programming tasks and application scenarios. The dataset creation process involves collecting and filtering high-quality Jupyter notebooks from GitHub to ensure the relevance and practicality of the data. The JuICe dataset is particularly suitable for researching contextual dependencies in code generation, and aims to automatically generate code blocks via machine learning models to assist programmers in rapid prototyping and collaboration.
提供机构:
保罗·G·艾伦计算机科学与工程学院,华盛顿大学,西雅图,华盛顿
创建时间:
2019-10-05
搜集汇总
背景与挑战
背景概述
JuICe是一个基于Jupyter笔记本生成的数据集,专门用于代码生成任务,例如从自然语言描述生成代码。数据集包含清理后的代码令牌和上下文单元格信息,支持机器学习模型的训练和评估,并提供了基准模型性能指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作