five

blindsubmissions/GH_text2code

收藏
Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blindsubmissions/GH_text2code
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种编程语言的英文文本与代码片段对,具体包括Python、Java、JavaScript和Go。数据通过自动化过滤管道从[The Stack](https://huggingface.co/datasets/bigcode/the-stack)中的源文件进行筛选和整理。数据集可用于微调代码到文本或文本到代码的模型,适用于信息检索或条件生成场景。
提供机构:
blindsubmissions
原始信息汇总

数据集概述

数据集名称

  • 名称: Docstring to code data

数据集内容

  • 描述: 该数据集包含多种编程语言(Python、Java、JavaScript、Go)的文本与代码片段配对数据。数据通过自动化过滤流程从The Stack的源文件中筛选而来。

数据集特征

  • 特征列表:
    • identifier: 字符串
    • parameters: 字符串
    • docstring: 字符串
    • docstring_summary: 字符串
    • function: 字符串
    • function_tokens: 字符串序列
    • start_point: 整数序列
    • end_point: 整数序列
    • language: 字符串
    • docstring_language: 字符串
    • docstring_language_predictions: 字符串
    • is_langid_reliable: 字符串

数据集分割

  • 分割详情:
    • python_gh: 15000002个示例,36300760423字节
    • java_gh: 15000014个示例,21613057110字节
    • go_gh: 15000078个示例,22559741937字节
    • javascript_gh: 2000040个示例,3895688311字节

数据集大小

  • 下载大小: 166324499字节
  • 数据集大小: 84369247781字节

任务类别

  • 翻译
  • 摘要
  • 文本到文本生成

语言

  • 英语

标签

  • 代码

大小分类

  • 10M<n<100M

数据集结构

  • 数据实例: 每个实例对应于The Stack中许可文件中的函数/方法。
  • 相关数据字段:
    • identifier: 函数/方法名称
    • parameters: 函数参数
    • docstring: 完整的文档字符串内容
    • docstring_summary: 处理后的文档字符串摘要
    • function: 实际的函数/方法内容
    • language: 编程语言

数据集维护计划

  • 数据将通过跟随The Stack的发布保持更新,每次新发布时重新运行过滤流程,将新的非重叠内容添加到训练和测试分区中。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个包含4700万行代码-文本配对的大规模多语言编程数据集,涵盖Python、Java、JavaScript和Go四种编程语言。数据来源于GitHub的许可文件,通过自动过滤和AST解析流程提取函数/方法及其对应的英文文档字符串,主要用于代码到文本和文本到代码的模型训练任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作