JuICe (JuICe Dataset)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/JuICe
下载链接
链接失效反馈官方服务:
资源简介:
JuICe 是一个包含 150 万个示例的语料库,其中包含一个基于在线编程作业的 3.7K 个实例的精选测试集。与现有的上下文代码生成数据集相比,JuICe 提供了精细的人工管理数据、开放域代码和一个数量级的训练数据。
JuICe is a corpus consisting of 1.5 million examples, which features a curated test set of 3.7K instances derived from online programming assignments. Compared with existing contextual code generation datasets, JuICe offers fine-grained human-managed data, open-domain code, and training data that is an order of magnitude larger in scale.
提供机构:
OpenDataLab
创建时间:
2022-06-07
搜集汇总
数据集介绍

背景与挑战
背景概述
JuICe数据集是一个包含150万个示例的语料库,其中精选了3.7K个基于在线编程作业的测试实例。与现有上下文代码生成数据集相比,它提供了精细的人工管理数据、开放域代码以及数量级更大的训练数据,由华盛顿大学于2019年发布。
以上内容由遇见数据集搜集并总结生成



