five

ontocord/CulturaY

收藏
Hugging Face2024-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ontocord/CulturaY
下载链接
链接失效反馈
官方服务:
资源简介:
CulturaY是一个包含75种语言的大型多语言文本数据集,数据来源于HPLT v1.1项目,并经过严格的清洗流程。数据集的主要列包括`text`和`url`,其他列保留用于调试。数据集的创建过程基于Bloom的数据清洗管道,评估每个文档的多个标准。数据集的使用许可为CC-BY-4.0,适用于机器学习研究。

CulturaY是一个包含75种语言的大型多语言文本数据集,数据来源于HPLT v1.1项目,并经过严格的清洗流程。数据集的主要列包括`text`和`url`,其他列保留用于调试。数据集的创建过程基于Bloom的数据清洗管道,评估每个文档的多个标准。数据集的使用许可为CC-BY-4.0,适用于机器学习研究。
提供机构:
ontocord
原始信息汇总

CulturaY 数据集概述

数据集配置

CulturaY 数据集包含以下语言配置:

  • af: 南非荷兰语
  • ar: 阿拉伯语
  • az: 阿塞拜疆语
  • be: 白俄罗斯语
  • bg: 保加利亚语
  • bn: 孟加拉语
  • ca: 加泰罗尼亚语
  • cs: 捷克语
  • cy: 威尔士语
  • da: 丹麦语
  • de: 德语
  • el: 希腊语
  • en: 英语
  • eo: 世界语
  • es: 西班牙语
  • et: 爱沙尼亚语
  • eu: 巴斯克语
  • fa: 波斯语
  • fi: 芬兰语
  • fr: 法语
  • ga: 爱尔兰语
  • gl: 加利西亚语
  • gu: 古吉拉特语
  • hbs: 塞尔维亚-克罗地亚语
  • he: 希伯来语
  • hi: 印地语
  • hu: 匈牙利语
  • hy: 亚美尼亚语
  • id: 印度尼西亚语
  • is: 冰岛语
  • it: 意大利语
  • ja: 日语
  • ka: 格鲁吉亚语
  • kk: 哈萨克语
  • kn: 卡纳达语
  • ko: 韩语
  • ky: 吉尔吉斯语
  • la: 拉丁语
  • lt: 立陶宛语
  • lv: 拉脱维亚语
  • mk: 马其顿语
  • ml: 马拉雅拉姆语
  • mn: 蒙古语
  • mr: 马拉地语
  • ms: 马来语
  • mt: 马耳他语
  • my: 缅甸语
  • nb: 挪威博克马尔语
  • ne: 尼泊尔语
  • nl: 荷兰语
  • nn: 挪威尼诺斯克语
  • pa: 旁遮普语
  • pl: 波兰语
  • ps: 普什图语
  • pt: 葡萄牙语
  • ro: 罗马尼亚语
  • ru: 俄语
  • si: 僧伽罗语
  • sk: 斯洛伐克语
  • sl: 斯洛文尼亚语
  • so: 索马里语
  • sq: 阿尔巴尼亚语
  • sv: 瑞典语
  • sw: 斯瓦希里语
  • ta: 泰米尔语
  • te: 泰卢固语
  • th: 泰语
  • tl: 他加禄语
  • tr: 土耳其语
  • tt: 塔塔尔语
  • uk: 乌克兰语
  • ur: 乌尔都语
  • uz: 乌兹别克语
  • vi: 越南语
  • zh: 中文

数据集属性

  • annotations_creators: no-annotation
  • language_creators: found
  • language: 见上文配置列表
  • multilinguality: multilingual
  • size_categories: n<1K, 1K<n<10K, 10K<n<100K, 100K<n<1M, 1M<n<10M, 10M<n<100M, 100M<n<1B, 1B<n<10B
  • source_datasets: original
  • task_categories: text-generation, fill-mask
  • task_ids: language-modeling, masked-language-modeling
  • license: cc-by-4.0

数据集结构

数据集包含以下列:

  • text, url: 主要列
  • id, document_lang, scores, langs: 原始文档列,用于调试,未来将移除

数据集创建过程

CulturaY 是从 HPLT 数据集(版本 1.1)中清洗得到的,与 CulturaX 不同,后者是从 Common Crawl 数据中清洗得到的。清洗过程包括评估文档长度、困惑度、不良词汇比例等,并移除不符合标准的文档。

引用

@misc{nguyen2024culturay, title={CulturaY: A Large Cleaned Multilingual Dataset of 75 Languages}, author={Thuat Nguyen, Huu Nguyen and Thien Nguyen}, year={2024}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作