projecte-aina/catalan_textual_corpus
收藏数据集卡片:Catalan Textual Corpus
数据集描述
数据集概述
Catalan Textual Corpus 是一个包含 17.6 亿个词的加泰罗尼亚语网络语料库,由多个来源构建而成。它包含 1,758,388,896 个词,73,172,152 个句子,以及 12,556,365 个文档。文档之间以单个换行符分隔,这些边界在许可允许的情况下被保留。
支持的任务和排行榜
该语料库主要用于预训练语言模型和词表示。
语言
数据集使用加泰罗尼亚语(ca-ES)。
数据集结构
数据实例
json { "text": "Loperatiu continuarà durant aquest divendres." }
数据字段
text(str): 文本。
数据分割
数据集包含一个分割:train。
数据集创建
策划理由
我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的语言模型发展。
源数据
初始数据收集和规范化
Catalan Textual Corpus 是一个包含 17.6 亿个词的加泰罗尼亚语网络语料库,由多个来源构建而成,包括现有的语料库如 DOGC、CaWac(非重复版本)、Oscar(未打乱版本)、Open Subtitles、加泰罗尼亚语维基百科,以及三个全新的爬取:加泰罗尼亚语通用爬取,通过爬取最受欢迎的 .cat 和 .ad 域名获得;加泰罗尼亚政府爬取,通过爬取 .gencat 域名及其子域名获得,属于加泰罗尼亚政府;以及 ACN 语料库,包含从 2015 年 3 月到 2020 年 10 月的 22 万条新闻,从加泰罗尼亚新闻社爬取。
源语言生产者
原始数据来自各种来源:现有的语料库和公共网站的爬取。
注释
数据集未注释。
注释过程
[N/A]
注释者
[N/A]
个人和敏感信息
未进行匿名化处理。
使用数据的注意事项
数据集的社会影响
我们希望这个语料库能够促进加泰罗尼亚语这种低资源语言的语言模型发展。
偏见的讨论
我们意识到由于数据来自不可靠的网页和多语言爬取的语料库,数据集中可能存在一些偏见。尽管如此,我们并未采取任何步骤来减少其影响。
其他已知限制
[N/A]
附加信息
数据集策展人
文本挖掘单元(TeMU)在巴塞罗那超级计算中心(bsc-temu@bsc.es)
该项目由加泰罗尼亚政府数字政策和领土副主席部门资助,作为 AINA 项目的一部分。
许可信息
Creative Commons Attribution Share Alike 4.0 International。
引用信息
plaintext @inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @albertvillanova 添加此数据集。



