five

CodeExp

收藏
魔搭社区2024-11-27 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/CodeExp
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: CodeExp labelTypes: - English Corpus license: - MIT mediaTypes: - Text paperUrl: https://arxiv.org/pdf/2211.15395.pdf publishDate: "2022" publishUrl: https://github.com/subercui/CodeExp publisher: - Beihang University - University of Toronto - Microsoft Research tags: - Code taskTypes: [] --- # 数据集介绍 ## 简介 我们提供了一个python代码-docstring语料库CodeExp,其中包含 (1) 2.3的大分区 百万原始代码-docstring对,(2) 一个介质 158,000对的分区从 使用学习的过滤器的原始语料库,以及 (3) 具有严格的人类13,000对的分区 注释。我们的数据收集过程利用了从人类那里学到的注释模型 自动过滤高质量的注释 来自原始GitHub数据集的代码-docstring对 ## Download dataset :modelscope-code[]{type="git"}

displayName: CodeExp labelTypes: - 英语语料库 license: - MIT协议 mediaTypes: - 文本 paperUrl: https://arxiv.org/pdf/2211.15395.pdf publishDate: 2022年 publishUrl: https://github.com/subercui/CodeExp publisher: - 北京航空航天大学(Beihang University) - 多伦多大学(University of Toronto) - 微软研究院(Microsoft Research) tags: - 代码 taskTypes: [] --- # 数据集简介 ## 简介 本数据集为Python代码-文档字符串(docstring)语料库CodeExp,包含三类子集:(1) 由230万条原始代码-文档字符串对组成的大规模子集;(2) 由原始语料库通过学习得到的过滤器筛选出的15.8万条对的中等规模子集;(3) 带有严格人工注释的1.3万条对的高精度子集。本数据集的采集流程借助基于人类标注数据训练得到的注释模型,从原始GitHub数据集的代码-文档字符串对中自动筛选高质量样本。 ## 下载数据集 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作