ontocord/CulturaY

Name: ontocord/CulturaY
Creator: ontocord
Published: 2024-03-30 23:07:37
License: 暂无描述

Hugging Face2024-03-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ontocord/CulturaY

下载链接

链接失效反馈

官方服务：

资源简介：

CulturaY是一个包含75种语言的大型多语言文本数据集，数据来源于HPLT v1.1项目，并经过严格的清洗流程。数据集的主要列包括`text`和`url`，其他列保留用于调试。数据集的创建过程基于Bloom的数据清洗管道，评估每个文档的多个标准。数据集的使用许可为CC-BY-4.0，适用于机器学习研究。

提供机构：

ontocord

原始信息汇总

CulturaY 数据集概述

数据集配置

CulturaY 数据集包含以下语言配置：

af: 南非荷兰语
ar: 阿拉伯语
az: 阿塞拜疆语
be: 白俄罗斯语
bg: 保加利亚语
bn: 孟加拉语
ca: 加泰罗尼亚语
cs: 捷克语
cy: 威尔士语
da: 丹麦语
de: 德语
el: 希腊语
en: 英语
eo: 世界语
es: 西班牙语
et: 爱沙尼亚语
eu: 巴斯克语
fa: 波斯语
fi: 芬兰语
fr: 法语
ga: 爱尔兰语
gl: 加利西亚语
gu: 古吉拉特语
hbs: 塞尔维亚-克罗地亚语
he: 希伯来语
hi: 印地语
hu: 匈牙利语
hy: 亚美尼亚语
id: 印度尼西亚语
is: 冰岛语
it: 意大利语
ja: 日语
ka: 格鲁吉亚语
kk: 哈萨克语
kn: 卡纳达语
ko: 韩语
ky: 吉尔吉斯语
la: 拉丁语
lt: 立陶宛语
lv: 拉脱维亚语
mk: 马其顿语
ml: 马拉雅拉姆语
mn: 蒙古语
mr: 马拉地语
ms: 马来语
mt: 马耳他语
my: 缅甸语
nb: 挪威博克马尔语
ne: 尼泊尔语
nl: 荷兰语
nn: 挪威尼诺斯克语
pa: 旁遮普语
pl: 波兰语
ps: 普什图语
pt: 葡萄牙语
ro: 罗马尼亚语
ru: 俄语
si: 僧伽罗语
sk: 斯洛伐克语
sl: 斯洛文尼亚语
so: 索马里语
sq: 阿尔巴尼亚语
sv: 瑞典语
sw: 斯瓦希里语
ta: 泰米尔语
te: 泰卢固语
th: 泰语
tl: 他加禄语
tr: 土耳其语
tt: 塔塔尔语
uk: 乌克兰语
ur: 乌尔都语
uz: 乌兹别克语
vi: 越南语
zh: 中文

数据集属性

annotations_creators: no-annotation
language_creators: found
language: 见上文配置列表
multilinguality: multilingual
size_categories: n<1K, 1K<n<10K, 10K<n<100K, 100K<n<1M, 1M<n<10M, 10M<n<100M, 100M<n<1B, 1B<n<10B
source_datasets: original
task_categories: text-generation, fill-mask
task_ids: language-modeling, masked-language-modeling
license: cc-by-4.0

数据集结构

数据集包含以下列：

text, url: 主要列
id, document_lang, scores, langs: 原始文档列，用于调试，未来将移除

数据集创建过程

CulturaY 是从 HPLT 数据集（版本 1.1）中清洗得到的，与 CulturaX 不同，后者是从 Common Crawl 数据中清洗得到的。清洗过程包括评估文档长度、困惑度、不良词汇比例等，并移除不符合标准的文档。

引用

@misc{nguyen2024culturay, title={CulturaY: A Large Cleaned Multilingual Dataset of 75 Languages}, author={Thuat Nguyen, Huu Nguyen and Thien Nguyen}, year={2024}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集