Nan-Do/code-search-net-php
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-php
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是CodeSearchNet的PHP部分,并且包含了一个摘要列。数据集包括从GitHub找到的开源函数及其注释,摘要列提供了对函数功能的简短描述。数据集的注释是英文的,而函数是用PHP编写的。数据集创建于2023年5月,旨在用于生成对训练大型语言模型有用的数据集。数据集的注释过程使用了Salesforce的T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。
该数据集是CodeSearchNet的PHP部分,并且包含了一个摘要列。数据集包括从GitHub找到的开源函数及其注释,摘要列提供了对函数功能的简短描述。数据集的注释是英文的,而函数是用PHP编写的。数据集创建于2023年5月,旨在用于生成对训练大型语言模型有用的数据集。数据集的注释过程使用了Salesforce的T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。
提供机构:
Nan-Do
原始信息汇总
数据集概述
数据集名称
- 名称: Php CodeSearchNet with Summaries
数据集特征
- 特征列表:
- repo: string
- path: string
- func_name: string
- original_string: string
- language: string
- code: string
- code_tokens: sequence of string
- docstring: string
- docstring_tokens: sequence of string
- sha: string
- url: string
- partition: string
- summary: string
数据集大小
- 下载大小: 526417871 bytes
- 数据集大小: 1735380857 bytes
数据集分割
- 训练集:
- 大小: 1735380857 bytes
- 示例数量: 577190
许可证
- 许可证: Apache-2.0
任务类别
- text-generation
- text2text-generation
- summarization
语言
- 代码语言: Php
- 注释语言: English
数据集创建
- 创建时间: May 2023
数据集来源
- 来源数据集: CodeSearchNet
- 来源链接: https://www.kaggle.com/datasets/omduggineni/codesearchnet
注释信息
- 注释内容: 包含函数功能的简短描述
- 注释过程: 使用Salesforce T5 summarization模型进行注释
- 注释质量: 经过清理,确保无重复或无意义的总结



