Nan-Do/code-search-net-go
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-go
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是CodeSearchNet的Go语言部分,并且包含了一个摘要列。数据集包括从GitHub上找到的开源函数及其注释,摘要列是对函数功能的简短描述。数据集的注释是英文的,函数是用Go语言编写的。数据集创建于2023年5月,可以用于生成训练大型语言模型(LLMs)的有用数据集。数据集的注释过程使用了Salesforce T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。
该数据集是CodeSearchNet的Go语言部分,并且包含了一个摘要列。数据集包括从GitHub上找到的开源函数及其注释,摘要列是对函数功能的简短描述。数据集的注释是英文的,函数是用Go语言编写的。数据集创建于2023年5月,可以用于生成训练大型语言模型(LLMs)的有用数据集。数据集的注释过程使用了Salesforce T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。
提供机构:
Nan-Do
原始信息汇总
数据集概述
数据集名称
- 名称: Go CodeSearchNet with Summaries
- 简称: code-search-net-go
数据集描述
- 摘要: 该数据集是CodeSearchNet的Go部分,附带了一个总结列。数据集包含来自GitHub的开源函数及其注释,总结列提供了函数功能的简短描述。
语言信息
- 注释语言: 英语
- 编程语言: Go
数据集特征
- 特征列表:
- repo: 字符串
- path: 字符串
- func_name: 字符串
- original_string: 字符串
- language: 字符串
- code: 字符串
- code_tokens: 字符串序列
- docstring: 字符串
- docstring_tokens: 字符串序列
- sha: 字符串
- url: 字符串
- partition: 字符串
- summary: 字符串
数据集划分
- 训练集:
- 字节数: 833011518
- 示例数: 345890
- 下载大小: 239636894
- 数据集大小: 833011518
许可证
- 许可证类型: Apache-2.0
任务类别
- text-generation
- text2text-generation
- summarization
数据集创建
- 创建时间: 2023年5月
来源数据
- 来源数据集: CodeSearchNet, 可从https://www.kaggle.com/datasets/omduggineni/codesearchnet获取
标注信息
- 标注内容: 包含一个总结列,提供函数功能的简短描述。
- 标注过程: 使用Salesforce T5 summarization模型进行标注。
- 标注质量: 已清理以确保无重复或无意义的总结。



