five

ammarnasr/the-stack-ruby-clean

收藏
Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ammarnasr/the-stack-ruby-clean
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从TheStack Corpus中提取的,TheStack Corpus是一个包含超过3TB GitHub数据的开源代码数据集,涵盖了48种编程语言。我们从中选择了一小部分数据,以优化针对Ruby(一种流行的静态类型语言)的较小语言模型。数据集包含了训练、验证和测试三个部分,分别包含900,000、50,000和50,000个文件。数据集经过了预处理,包括选择Ruby作为目标语言、过滤平均行长度大于100字符、最大行长度大于1000字符以及字母数字比例小于25%的文件,并将文件分割为90%训练集、5%验证集和5%测试集。数据集的Tokenizer采用了Byte Pair Encoding (BPE) tokenizer,并扩展了GPT-2的词汇表。

该数据集是从TheStack Corpus中提取的,TheStack Corpus是一个包含超过3TB GitHub数据的开源代码数据集,涵盖了48种编程语言。我们从中选择了一小部分数据,以优化针对Ruby(一种流行的静态类型语言)的较小语言模型。数据集包含了训练、验证和测试三个部分,分别包含900,000、50,000和50,000个文件。数据集经过了预处理,包括选择Ruby作为目标语言、过滤平均行长度大于100字符、最大行长度大于1000字符以及字母数字比例小于25%的文件,并将文件分割为90%训练集、5%验证集和5%测试集。数据集的Tokenizer采用了Byte Pair Encoding (BPE) tokenizer,并扩展了GPT-2的词汇表。
提供机构:
ammarnasr
原始信息汇总

数据集概述

数据集名称

TheStack-Ruby

描述

该数据集是从TheStack Corpus中提取的,这是一个包含超过3TB GitHub数据的开放源代码数据集,涵盖48种编程语言。我们选择了一小部分数据集来优化Ruby语言的小型语言模型,Ruby是一种流行的静态类型语言。

目标语言

Ruby

数据集大小

  • 训练集:900,000文件
  • 验证集:50,000文件
  • 测试集:50,000文件

预处理

  1. 由于Ruby在GitHub上的流行度,选择Ruby作为目标语言。
  2. 过滤掉平均行长度大于100字符、最大行长度大于1000字符和字母比率小于25%的文件。
  3. 将文件分割为90%训练集、5%验证集和5%测试集。

分词器

使用带有制表符和空白字符的Byte Pair Encoding (BPE)分词器。GPT-2词汇表扩展了特殊标记。

训练序列

通过连接训练数据文本构建序列,以达到2048个令牌的上下文长度(1024个令牌用于完全微调)。

数据集信息

特征

  • hexsha: 字符串
  • size: 整数64位
  • content: 字符串
  • avg_line_length: 浮点数64位
  • max_line_length: 整数64位
  • alphanum_fraction: 浮点数64位

分割

  • 训练集: 3582248477.9086223字节, 806789个样本
  • 测试集: 394048264.9973618字节, 88747个样本
  • 验证集: 3982797.09401595字节, 897个样本

下载和数据集大小

  • 下载大小: 1323156008字节
  • 数据集大小: 3980279540字节

任务类别

  • 文本生成

语言

  • 代码

标签

  • 代码

大小类别

  • 1M<n<10M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作