five

projecte-aina/catalan_textual_corpus

收藏
Hugging Face2024-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/catalan_textual_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Catalan Textual Corpus是一个包含1760百万个token的加泰罗尼亚语网络语料库,由多个来源构建而成。该数据集包含1,758,388,896个token、73,172,152个句子和12,556,365个文档。文档之间用单行换行符分隔,这些分隔符在许可证允许的情况下被保留。该数据集主要用于预训练语言模型和词表示,旨在促进加泰罗尼亚语这一低资源语言的模型开发。数据集未进行注释,也未进行匿名化处理。
提供机构:
projecte-aina
原始信息汇总

数据集卡片:Catalan Textual Corpus

数据集描述

数据集概述

Catalan Textual Corpus 是一个包含 17.6 亿个词的加泰罗尼亚语网络语料库,由多个来源构建而成。它包含 1,758,388,896 个词,73,172,152 个句子,以及 12,556,365 个文档。文档之间以单个换行符分隔,这些边界在许可允许的情况下被保留。

支持的任务和排行榜

该语料库主要用于预训练语言模型和词表示。

语言

数据集使用加泰罗尼亚语(ca-ES)。

数据集结构

数据实例

json { "text": "Loperatiu continuarà durant aquest divendres." }

数据字段

  • text (str): 文本。

数据分割

数据集包含一个分割:train

数据集创建

策划理由

我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的语言模型发展。

源数据

初始数据收集和规范化

Catalan Textual Corpus 是一个包含 17.6 亿个词的加泰罗尼亚语网络语料库,由多个来源构建而成,包括现有的语料库如 DOGC、CaWac(非重复版本)、Oscar(未打乱版本)、Open Subtitles、加泰罗尼亚语维基百科,以及三个全新的爬取:加泰罗尼亚语通用爬取,通过爬取最受欢迎的 .cat 和 .ad 域名获得;加泰罗尼亚政府爬取,通过爬取 .gencat 域名及其子域名获得,属于加泰罗尼亚政府;以及 ACN 语料库,包含从 2015 年 3 月到 2020 年 10 月的 22 万条新闻,从加泰罗尼亚新闻社爬取。

源语言生产者

原始数据来自各种来源:现有的语料库和公共网站的爬取。

注释

数据集未注释。

注释过程

[N/A]

注释者

[N/A]

个人和敏感信息

未进行匿名化处理。

使用数据的注意事项

数据集的社会影响

我们希望这个语料库能够促进加泰罗尼亚语这种低资源语言的语言模型发展。

偏见的讨论

我们意识到由于数据来自不可靠的网页和多语言爬取的语料库,数据集中可能存在一些偏见。尽管如此,我们并未采取任何步骤来减少其影响。

其他已知限制

[N/A]

附加信息

数据集策展人

文本挖掘单元(TeMU)在巴塞罗那超级计算中心(bsc-temu@bsc.es)

该项目由加泰罗尼亚政府数字政策和领土副主席部门资助,作为 AINA 项目的一部分。

许可信息

Creative Commons Attribution Share Alike 4.0 International

引用信息

plaintext @inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @albertvillanova 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作