ammarnasr/the-stack-ruby-clean

Name: ammarnasr/the-stack-ruby-clean
Creator: ammarnasr
Published: 2023-08-14 21:20:54
License: 暂无描述

Hugging Face2023-08-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ammarnasr/the-stack-ruby-clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从TheStack Corpus中提取的，TheStack Corpus是一个包含超过3TB GitHub数据的开源代码数据集，涵盖了48种编程语言。我们从中选择了一小部分数据，以优化针对Ruby（一种流行的静态类型语言）的较小语言模型。数据集包含了训练、验证和测试三个部分，分别包含900,000、50,000和50,000个文件。数据集经过了预处理，包括选择Ruby作为目标语言、过滤平均行长度大于100字符、最大行长度大于1000字符以及字母数字比例小于25%的文件，并将文件分割为90%训练集、5%验证集和5%测试集。数据集的Tokenizer采用了Byte Pair Encoding (BPE) tokenizer，并扩展了GPT-2的词汇表。

提供机构：

ammarnasr

原始信息汇总

数据集概述

数据集名称

TheStack-Ruby

描述

该数据集是从TheStack Corpus中提取的，这是一个包含超过3TB GitHub数据的开放源代码数据集，涵盖48种编程语言。我们选择了一小部分数据集来优化Ruby语言的小型语言模型，Ruby是一种流行的静态类型语言。

目标语言

Ruby

数据集大小

训练集：900,000文件
验证集：50,000文件
测试集：50,000文件

预处理

由于Ruby在GitHub上的流行度，选择Ruby作为目标语言。
过滤掉平均行长度大于100字符、最大行长度大于1000字符和字母比率小于25%的文件。
将文件分割为90%训练集、5%验证集和5%测试集。

分词器

使用带有制表符和空白字符的Byte Pair Encoding (BPE)分词器。GPT-2词汇表扩展了特殊标记。

训练序列

通过连接训练数据文本构建序列，以达到2048个令牌的上下文长度（1024个令牌用于完全微调）。

数据集信息

特征

hexsha: 字符串
size: 整数64位
content: 字符串
avg_line_length: 浮点数64位
max_line_length: 整数64位
alphanum_fraction: 浮点数64位

分割

训练集: 3582248477.9086223字节, 806789个样本
测试集: 394048264.9973618字节, 88747个样本
验证集: 3982797.09401595字节, 897个样本

下载和数据集大小

下载大小: 1323156008字节
数据集大小: 3980279540字节

任务类别

文本生成

语言

代码

大小类别

1M<n<10M

5,000+

优质数据集

54 个

任务类型

进入经典数据集