Nan-Do/code-search-net-java
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-java
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是CodeSearchNet的Java部分,并添加了摘要列。数据集包含从GitHub获取的开源函数及其注释,摘要列提供了对函数功能的简短描述。数据集的注释为英文,代码为Java。数据集创建于2023年5月,旨在用于生成对训练大型语言模型有用的数据集。
该数据集是CodeSearchNet的Java部分,并添加了摘要列。数据集包含从GitHub获取的开源函数及其注释,摘要列提供了对函数功能的简短描述。数据集的注释为英文,代码为Java。数据集创建于2023年5月,旨在用于生成对训练大型语言模型有用的数据集。
提供机构:
Nan-Do
原始信息汇总
数据集卡片 "code-search-net-java"
数据集描述
数据集概述
该数据集是CodeSearchNet的Java部分,增加了摘要列。CodeSearchNet数据集包括在GitHub上找到的开源函数及其注释。摘要是对函数功能的简短描述。
语言
数据集的注释为英文,函数代码为Java。
数据分割
数据集包括训练、测试和验证标签作为列。
数据集创建
创建时间
2023年5月
数据集来源
CodeSearchNet数据集可在Kaggle找到。
标注
该数据集包括一个摘要列,包含对函数功能的简短描述。
标注过程
标注过程使用Salesforce的T5摘要模型完成。标注过程的示例笔记本可在GitHub找到。标注已清理,以确保没有重复或无意义的摘要(数据集中可能仍存在一些)。
许可信息
Apache 2.0



