Trelis/gawiki
收藏Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/gawiki
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从20240501的维基媒体转储生成的,包含爱尔兰语(Gaeilge)的维基百科文章。数据集的特征包括文本(text)和标记计数(token_count),其中文本是通过将文章标题和文章内容结合生成的。标记计数是使用Llama 3标记器计算的。数据集的分割为训练集,包含57,010个示例,文件大小为45,492,446字节。数据集的许可证为CC BY-SA 3.0。
该数据集是从20240501的维基媒体转储生成的,包含爱尔兰语(Gaeilge)的维基百科文章。数据集的特征包括文本(text)和标记计数(token_count),其中文本是通过将文章标题和文章内容结合生成的。标记计数是使用Llama 3标记器计算的。数据集的分割为训练集,包含57,010个示例,文件大小为45,492,446字节。数据集的许可证为CC BY-SA 3.0。
提供机构:
Trelis
原始信息汇总
数据集概述
数据集信息
-
特征:
text: 数据类型为string。token_count: 数据类型为int64。
-
分割:
train: 包含57010个示例,占用45492446字节。
-
大小:
- 下载大小:
26622228字节。 - 数据集大小:
45492446字节。
- 下载大小:
配置
- 默认配置:
- 数据文件路径:
data/train-*。
- 数据文件路径:
许可证
- 本数据集遵循
cc-by-sa-3.0许可证。
语言
- 数据集语言为
ga(爱尔兰语)。



