five

Nan-Do/code-search-net-go

收藏
Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-go
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是CodeSearchNet的Go语言部分,并且包含了一个摘要列。数据集包括从GitHub上找到的开源函数及其注释,摘要列是对函数功能的简短描述。数据集的注释是英文的,函数是用Go语言编写的。数据集创建于2023年5月,可以用于生成训练大型语言模型(LLMs)的有用数据集。数据集的注释过程使用了Salesforce T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。

该数据集是CodeSearchNet的Go语言部分,并且包含了一个摘要列。数据集包括从GitHub上找到的开源函数及其注释,摘要列是对函数功能的简短描述。数据集的注释是英文的,函数是用Go语言编写的。数据集创建于2023年5月,可以用于生成训练大型语言模型(LLMs)的有用数据集。数据集的注释过程使用了Salesforce T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。
提供机构:
Nan-Do
原始信息汇总

数据集概述

数据集名称

  • 名称: Go CodeSearchNet with Summaries
  • 简称: code-search-net-go

数据集描述

  • 摘要: 该数据集是CodeSearchNet的Go部分,附带了一个总结列。数据集包含来自GitHub的开源函数及其注释,总结列提供了函数功能的简短描述。

语言信息

  • 注释语言: 英语
  • 编程语言: Go

数据集特征

  • 特征列表:
    • repo: 字符串
    • path: 字符串
    • func_name: 字符串
    • original_string: 字符串
    • language: 字符串
    • code: 字符串
    • code_tokens: 字符串序列
    • docstring: 字符串
    • docstring_tokens: 字符串序列
    • sha: 字符串
    • url: 字符串
    • partition: 字符串
    • summary: 字符串

数据集划分

  • 训练集:
    • 字节数: 833011518
    • 示例数: 345890
  • 下载大小: 239636894
  • 数据集大小: 833011518

许可证

  • 许可证类型: Apache-2.0

任务类别

  • text-generation
  • text2text-generation
  • summarization

数据集创建

  • 创建时间: 2023年5月

来源数据

  • 来源数据集: CodeSearchNet, 可从https://www.kaggle.com/datasets/omduggineni/codesearchnet获取

标注信息

  • 标注内容: 包含一个总结列,提供函数功能的简短描述。
  • 标注过程: 使用Salesforce T5 summarization模型进行标注。
  • 标注质量: 已清理以确保无重复或无意义的总结。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作