CodeExp
收藏魔搭社区2024-11-27 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/CodeExp
下载链接
链接失效反馈官方服务:
资源简介:
displayName: CodeExp
labelTypes:
- English Corpus
license:
- MIT
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/2211.15395.pdf
publishDate: "2022"
publishUrl: https://github.com/subercui/CodeExp
publisher:
- Beihang University
- University of Toronto
- Microsoft Research
tags:
- Code
taskTypes: []
---
# 数据集介绍
## 简介
我们提供了一个python代码-docstring语料库CodeExp,其中包含 (1) 2.3的大分区
百万原始代码-docstring对,(2) 一个介质
158,000对的分区从
使用学习的过滤器的原始语料库,以及 (3) 具有严格的人类13,000对的分区
注释。我们的数据收集过程利用了从人类那里学到的注释模型
自动过滤高质量的注释
来自原始GitHub数据集的代码-docstring对
## Download dataset
:modelscope-code[]{type="git"}
displayName: CodeExp
labelTypes:
- 英语语料库
license:
- MIT协议
mediaTypes:
- 文本
paperUrl: https://arxiv.org/pdf/2211.15395.pdf
publishDate: 2022年
publishUrl: https://github.com/subercui/CodeExp
publisher:
- 北京航空航天大学(Beihang University)
- 多伦多大学(University of Toronto)
- 微软研究院(Microsoft Research)
tags:
- 代码
taskTypes: []
---
# 数据集简介
## 简介
本数据集为Python代码-文档字符串(docstring)语料库CodeExp,包含三类子集:(1) 由230万条原始代码-文档字符串对组成的大规模子集;(2) 由原始语料库通过学习得到的过滤器筛选出的15.8万条对的中等规模子集;(3) 带有严格人工注释的1.3万条对的高精度子集。本数据集的采集流程借助基于人类标注数据训练得到的注释模型,从原始GitHub数据集的代码-文档字符串对中自动筛选高质量样本。
## 下载数据集
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-01



