CodeExp

Name: CodeExp
Creator: maas
Published: 2024-11-27 13:44:04
License: 暂无描述

魔搭社区2024-11-27 更新2024-08-31 收录

下载链接：

https://modelscope.cn/datasets/OmniData/CodeExp

下载链接

链接失效反馈

官方服务：

资源简介：

displayName: CodeExp labelTypes: - English Corpus license: - MIT mediaTypes: - Text paperUrl: https://arxiv.org/pdf/2211.15395.pdf publishDate: "2022" publishUrl: https://github.com/subercui/CodeExp publisher: - Beihang University - University of Toronto - Microsoft Research tags: - Code taskTypes: [] --- # 数据集介绍 ## 简介我们提供了一个python代码-docstring语料库CodeExp，其中包含 (1) 2.3的大分区百万原始代码-docstring对，(2) 一个介质 158,000对的分区从使用学习的过滤器的原始语料库，以及 (3) 具有严格的人类13,000对的分区注释。我们的数据收集过程利用了从人类那里学到的注释模型自动过滤高质量的注释来自原始GitHub数据集的代码-docstring对 ## Download dataset :modelscope-code[]{type="git"}

displayName: CodeExp labelTypes: - 英语语料库 license: - MIT协议 mediaTypes: - 文本 paperUrl: https://arxiv.org/pdf/2211.15395.pdf publishDate: 2022年 publishUrl: https://github.com/subercui/CodeExp publisher: - 北京航空航天大学（Beihang University） - 多伦多大学（University of Toronto） - 微软研究院（Microsoft Research） tags: - 代码 taskTypes: [] --- # 数据集简介 ## 简介本数据集为Python代码-文档字符串（docstring）语料库CodeExp，包含三类子集：(1) 由230万条原始代码-文档字符串对组成的大规模子集；(2) 由原始语料库通过学习得到的过滤器筛选出的15.8万条对的中等规模子集；(3) 带有严格人工注释的1.3万条对的高精度子集。本数据集的采集流程借助基于人类标注数据训练得到的注释模型，从原始GitHub数据集的代码-文档字符串对中自动筛选高质量样本。 ## 下载数据集 :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-07-01

5,000+

优质数据集

54 个

任务类型

进入经典数据集