five

ontocord/CulturaP

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ontocord/CulturaP
下载链接
链接失效反馈
官方服务:
资源简介:
CulturaP是一个多语言数据集,包含75种语言,是基于CulturaY数据集的过滤版本,旨在提供更可能具有版权许可的内容。数据集主要来源于政府域名、国际组织域名(如联合国和europa.eu)以及创意共享许可的数据。尽管在美国,网络爬取数据的机器学习使用可能受到合理使用的保护,但在其他国家可能并非如此,因此创建了这个过滤版本。数据集包含8列,主要使用‘text’和‘url’两列。数据集的注释和安排遵循CC-BY-4.0许可,主要用于研究目的。

CulturaP是一个多语言数据集,包含75种语言,是基于CulturaY数据集的过滤版本,旨在提供更可能具有版权许可的内容。数据集主要来源于政府域名、国际组织域名(如联合国和europa.eu)以及创意共享许可的数据。尽管在美国,网络爬取数据的机器学习使用可能受到合理使用的保护,但在其他国家可能并非如此,因此创建了这个过滤版本。数据集包含8列,主要使用‘text’和‘url’两列。数据集的注释和安排遵循CC-BY-4.0许可,主要用于研究目的。
提供机构:
ontocord
原始信息汇总

数据集概述

名称: CulturaP

语言: 支持75种语言,包括但不限于:af, ar, az, be, bg, bn, ca, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fr, ga, gl, gu, hbs, he, hi, hu, hy, id, is, it, ja, ka, kk, kn, ko, ky, la, lt, lv, mk, ml, mn, mr, ms, mt, my, nb, ne, nl, nn, pa, pl, ps, pt, ro, ru, si, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, tt, uk, ur, uz, vi, zh。

多语言性: 多语言

许可证: CC-BY-4.0

数据集详情

  • 来源: CulturaP是基于CulturaY的一个过滤子集,而CulturaY又基于HPLT v1.1数据集。最终数据来源于Common Crawl和Internet Archive。
  • 过滤标准: 主要包含政府域名、国际组织域名(如联合国和europa.eu)以及创意共享许可数据。
  • 使用限制: 数据集中的某些政府网站可能有特定的使用限制,如禁止重新发布。
  • URL过滤: 使用特定的URL模式(如.gov/,.gov.,.gouv.,.int/等)进行过滤。
  • 数据结构: 数据集包含8个主要列,其中document_lang, text, url, cc, en_text为主要使用列。

注意事项

  • 版权声明: 数据集仅用于研究目的,不保证数据的版权状态。
  • 个人识别信息: 未进行个人识别信息的重编码,所有信息均来自原始数据集和相应网页。
  • 使用风险: 使用此数据集需自行承担风险,数据集提供者不承担任何保证或责任。

数据集结构

  • 主要列: document_lang, text, url, cc, en_text
  • 辅助列: id, document_lang, scores, langs(保留用于调试,未来将移除)

引用信息

@misc{nguyen2024culturap, title={CulturaP: A Permissive Multilingual Dataset of 75 Languages}, author={Huu Nguyen, Thuat Nguyen, Ken Tsui, and Thien Nguyen}, year={2024}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作