ontocord/CulturaY
收藏Hugging Face2024-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ontocord/CulturaY
下载链接
链接失效反馈官方服务:
资源简介:
CulturaY是一个包含75种语言的大型多语言文本数据集,数据来源于HPLT v1.1项目,并经过严格的清洗流程。数据集的主要列包括`text`和`url`,其他列保留用于调试。数据集的创建过程基于Bloom的数据清洗管道,评估每个文档的多个标准。数据集的使用许可为CC-BY-4.0,适用于机器学习研究。
CulturaY是一个包含75种语言的大型多语言文本数据集,数据来源于HPLT v1.1项目,并经过严格的清洗流程。数据集的主要列包括`text`和`url`,其他列保留用于调试。数据集的创建过程基于Bloom的数据清洗管道,评估每个文档的多个标准。数据集的使用许可为CC-BY-4.0,适用于机器学习研究。
提供机构:
ontocord
原始信息汇总
CulturaY 数据集概述
数据集配置
CulturaY 数据集包含以下语言配置:
- af: 南非荷兰语
- ar: 阿拉伯语
- az: 阿塞拜疆语
- be: 白俄罗斯语
- bg: 保加利亚语
- bn: 孟加拉语
- ca: 加泰罗尼亚语
- cs: 捷克语
- cy: 威尔士语
- da: 丹麦语
- de: 德语
- el: 希腊语
- en: 英语
- eo: 世界语
- es: 西班牙语
- et: 爱沙尼亚语
- eu: 巴斯克语
- fa: 波斯语
- fi: 芬兰语
- fr: 法语
- ga: 爱尔兰语
- gl: 加利西亚语
- gu: 古吉拉特语
- hbs: 塞尔维亚-克罗地亚语
- he: 希伯来语
- hi: 印地语
- hu: 匈牙利语
- hy: 亚美尼亚语
- id: 印度尼西亚语
- is: 冰岛语
- it: 意大利语
- ja: 日语
- ka: 格鲁吉亚语
- kk: 哈萨克语
- kn: 卡纳达语
- ko: 韩语
- ky: 吉尔吉斯语
- la: 拉丁语
- lt: 立陶宛语
- lv: 拉脱维亚语
- mk: 马其顿语
- ml: 马拉雅拉姆语
- mn: 蒙古语
- mr: 马拉地语
- ms: 马来语
- mt: 马耳他语
- my: 缅甸语
- nb: 挪威博克马尔语
- ne: 尼泊尔语
- nl: 荷兰语
- nn: 挪威尼诺斯克语
- pa: 旁遮普语
- pl: 波兰语
- ps: 普什图语
- pt: 葡萄牙语
- ro: 罗马尼亚语
- ru: 俄语
- si: 僧伽罗语
- sk: 斯洛伐克语
- sl: 斯洛文尼亚语
- so: 索马里语
- sq: 阿尔巴尼亚语
- sv: 瑞典语
- sw: 斯瓦希里语
- ta: 泰米尔语
- te: 泰卢固语
- th: 泰语
- tl: 他加禄语
- tr: 土耳其语
- tt: 塔塔尔语
- uk: 乌克兰语
- ur: 乌尔都语
- uz: 乌兹别克语
- vi: 越南语
- zh: 中文
数据集属性
- annotations_creators: no-annotation
- language_creators: found
- language: 见上文配置列表
- multilinguality: multilingual
- size_categories: n<1K, 1K<n<10K, 10K<n<100K, 100K<n<1M, 1M<n<10M, 10M<n<100M, 100M<n<1B, 1B<n<10B
- source_datasets: original
- task_categories: text-generation, fill-mask
- task_ids: language-modeling, masked-language-modeling
- license: cc-by-4.0
数据集结构
数据集包含以下列:
text, url: 主要列id, document_lang, scores, langs: 原始文档列,用于调试,未来将移除
数据集创建过程
CulturaY 是从 HPLT 数据集(版本 1.1)中清洗得到的,与 CulturaX 不同,后者是从 Common Crawl 数据中清洗得到的。清洗过程包括评估文档长度、困惑度、不良词汇比例等,并移除不符合标准的文档。
引用
@misc{nguyen2024culturay, title={CulturaY: A Large Cleaned Multilingual Dataset of 75 Languages}, author={Thuat Nguyen, Huu Nguyen and Thien Nguyen}, year={2024}, }



