five

Nan-Do/code-search-net-ruby

收藏
Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/code-search-net-ruby
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是CodeSearchNet的Ruby部分,并且包含了一个摘要列。数据集包括从GitHub上找到的开源函数及其注释,摘要部分是对函数功能的简短描述。数据集的注释是英文的,而函数是用Ruby编写的。数据集创建于2023年5月,旨在用于生成有助于训练大型语言模型(LLMs)的教学或其他有趣的数据集。数据集的来源是CodeSearchNet数据集,注释过程使用了Salesforce的T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。

该数据集是CodeSearchNet的Ruby部分,并且包含了一个摘要列。数据集包括从GitHub上找到的开源函数及其注释,摘要部分是对函数功能的简短描述。数据集的注释是英文的,而函数是用Ruby编写的。数据集创建于2023年5月,旨在用于生成有助于训练大型语言模型(LLMs)的教学或其他有趣的数据集。数据集的来源是CodeSearchNet数据集,注释过程使用了Salesforce的T5摘要模型,并进行了清理以确保没有重复或无意义的摘要。
提供机构:
Nan-Do
原始信息汇总

数据集卡片 "code-search-net-ruby"

数据集描述

数据集概述

该数据集是CodeSearchNet的Ruby部分,包含一个摘要列。CodeSearchNet数据集包括在GitHub上找到的开源函数及其注释。摘要是对函数功能的简短描述。

语言

数据集的注释为英语,函数代码为Ruby。

数据分割

数据集包括训练、测试和验证标签作为列。

数据集创建

创建时间

2023年5月

创建目的

该数据集可用于生成教学(或其他有趣)的数据集,有助于训练大型语言模型(LLMs)。

源数据

CodeSearchNet数据集可在Kaggle找到。

注释

该数据集包含一个摘要列,其中包括对函数功能的简短描述。

注释过程

注释过程使用Salesforce的T5摘要模型完成。注释过程的示例笔记本可在GitHub找到。注释已清理,以确保没有重复或无意义的摘要(数据集中可能仍存在一些)。

许可信息

Apache 2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作