blindsubmissions/GH_text2code
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blindsubmissions/GH_text2code
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种编程语言的英文文本与代码片段对,具体包括Python、Java、JavaScript和Go。数据通过自动化过滤管道从[The Stack](https://huggingface.co/datasets/bigcode/the-stack)中的源文件进行筛选和整理。数据集可用于微调代码到文本或文本到代码的模型,适用于信息检索或条件生成场景。
提供机构:
blindsubmissions
原始信息汇总
数据集概述
数据集名称
- 名称: Docstring to code data
数据集内容
- 描述: 该数据集包含多种编程语言(Python、Java、JavaScript、Go)的文本与代码片段配对数据。数据通过自动化过滤流程从The Stack的源文件中筛选而来。
数据集特征
- 特征列表:
- identifier: 字符串
- parameters: 字符串
- docstring: 字符串
- docstring_summary: 字符串
- function: 字符串
- function_tokens: 字符串序列
- start_point: 整数序列
- end_point: 整数序列
- language: 字符串
- docstring_language: 字符串
- docstring_language_predictions: 字符串
- is_langid_reliable: 字符串
数据集分割
- 分割详情:
- python_gh: 15000002个示例,36300760423字节
- java_gh: 15000014个示例,21613057110字节
- go_gh: 15000078个示例,22559741937字节
- javascript_gh: 2000040个示例,3895688311字节
数据集大小
- 下载大小: 166324499字节
- 数据集大小: 84369247781字节
任务类别
- 翻译
- 摘要
- 文本到文本生成
语言
- 英语
标签
- 代码
大小分类
- 10M<n<100M
数据集结构
- 数据实例: 每个实例对应于The Stack中许可文件中的函数/方法。
- 相关数据字段:
- identifier: 函数/方法名称
- parameters: 函数参数
- docstring: 完整的文档字符串内容
- docstring_summary: 处理后的文档字符串摘要
- function: 实际的函数/方法内容
- language: 编程语言
数据集维护计划
- 数据将通过跟随The Stack的发布保持更新,每次新发布时重新运行过滤流程,将新的非重叠内容添加到训练和测试分区中。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含4700万行代码-文本配对的大规模多语言编程数据集,涵盖Python、Java、JavaScript和Go四种编程语言。数据来源于GitHub的许可文件,通过自动过滤和AST解析流程提取函数/方法及其对应的英文文档字符串,主要用于代码到文本和文本到代码的模型训练任务。
以上内容由遇见数据集搜集并总结生成



