ammarnasr/the-stack-ruby-clean
收藏Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ammarnasr/the-stack-ruby-clean
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从TheStack Corpus中提取的,TheStack Corpus是一个包含超过3TB GitHub数据的开源代码数据集,涵盖了48种编程语言。我们从中选择了一小部分数据,以优化针对Ruby(一种流行的静态类型语言)的较小语言模型。数据集包含了训练、验证和测试三个部分,分别包含900,000、50,000和50,000个文件。数据集经过了预处理,包括选择Ruby作为目标语言、过滤平均行长度大于100字符、最大行长度大于1000字符以及字母数字比例小于25%的文件,并将文件分割为90%训练集、5%验证集和5%测试集。数据集的Tokenizer采用了Byte Pair Encoding (BPE) tokenizer,并扩展了GPT-2的词汇表。
该数据集是从TheStack Corpus中提取的,TheStack Corpus是一个包含超过3TB GitHub数据的开源代码数据集,涵盖了48种编程语言。我们从中选择了一小部分数据,以优化针对Ruby(一种流行的静态类型语言)的较小语言模型。数据集包含了训练、验证和测试三个部分,分别包含900,000、50,000和50,000个文件。数据集经过了预处理,包括选择Ruby作为目标语言、过滤平均行长度大于100字符、最大行长度大于1000字符以及字母数字比例小于25%的文件,并将文件分割为90%训练集、5%验证集和5%测试集。数据集的Tokenizer采用了Byte Pair Encoding (BPE) tokenizer,并扩展了GPT-2的词汇表。
提供机构:
ammarnasr
原始信息汇总
数据集概述
数据集名称
TheStack-Ruby
描述
该数据集是从TheStack Corpus中提取的,这是一个包含超过3TB GitHub数据的开放源代码数据集,涵盖48种编程语言。我们选择了一小部分数据集来优化Ruby语言的小型语言模型,Ruby是一种流行的静态类型语言。
目标语言
Ruby
数据集大小
- 训练集:900,000文件
- 验证集:50,000文件
- 测试集:50,000文件
预处理
- 由于Ruby在GitHub上的流行度,选择Ruby作为目标语言。
- 过滤掉平均行长度大于100字符、最大行长度大于1000字符和字母比率小于25%的文件。
- 将文件分割为90%训练集、5%验证集和5%测试集。
分词器
使用带有制表符和空白字符的Byte Pair Encoding (BPE)分词器。GPT-2词汇表扩展了特殊标记。
训练序列
通过连接训练数据文本构建序列,以达到2048个令牌的上下文长度(1024个令牌用于完全微调)。
数据集信息
特征
- hexsha: 字符串
- size: 整数64位
- content: 字符串
- avg_line_length: 浮点数64位
- max_line_length: 整数64位
- alphanum_fraction: 浮点数64位
分割
- 训练集: 3582248477.9086223字节, 806789个样本
- 测试集: 394048264.9973618字节, 88747个样本
- 验证集: 3982797.09401595字节, 897个样本
下载和数据集大小
- 下载大小: 1323156008字节
- 数据集大小: 3980279540字节
任务类别
- 文本生成
语言
- 代码
标签
- 代码
大小类别
- 1M<n<10M



