projecte-aina/catalan_general_crawling
收藏数据集卡片 for Catalan General Crawling
数据集描述
数据集摘要
Catalan General Crawling Corpus 是一个包含 4.35 亿个词令的加泰罗尼亚语网络语料库,从网络构建而成。该语料库是通过在 2020 年 7 月爬取最受欢迎的 500 个 .cat 和 .ad 域名获得的。它包含 434,817,705 个词令,19,451,691 个句子,以及 1,016,114 个文档。文档之间由单个新行分隔。这是加泰罗尼亚语文本语料库的一个子语料库。
该工作基于 Creative Commons Attribution 4.0 International 许可。
支持的任务和排行榜
该语料库主要用于预训练语言模型和词表示。
语言
该数据集为加泰罗尼亚语 (ca-ES)。
数据集结构
数据实例
json { "text": "Reduïu els costos dels processos administratius al vostre organisme públic Eviteu els desplaçaments i pèrdua de temps als ciutadans en les seves gestions Oferiu una administració més transparent a ciutadans i empreses Ens grans i petits experimenten aquesta transformació amb èxit, gràcies al suport de lAOC Departament de Sistemes dInformació i Processos " Via Oberta ens ha permès fer efectiu el dret dels ciutadans a no aportar documents, eliminant paper i simplificant procediments" " e.FACT proporciona informació indispensable per a la realització de les auditories del registre comptable de factures de les Administracions Públiques Catalanes" Coordinador del departament dInformàtica "El servei VIA OBERTA és el que ha aportat majors avantatges per als ciutadans" "Amb l e-NOTUM hem escurçat els procediments en 12 dies, quasi un 40% menys!" Coordinadora dorganització de persones i e-administració " Via Oberta ofereix millores per als ciutadans al no haver daportar cap document" Responsable dInformàtica i Administració Electrònica " e-TRAM ens ha permès implantar un servei de tramitació electrònica per als ciutadans de forma ràpida, senzilla i amb un cost reduït" "Els municipis amb pocs habitants trobem en els serveis de lAOC la gratuïtat i la comoditat necessàries per dur a terme el nostre dia a dia" "Les T-CAT han permès incorporar de forma segura la signatura electrònica dins dels nostres procediments afavorint la transformació digital de la nostra activitat" Cap de Departament de Sistemes i Tecnologies de la Informació "Amb el desplegament de l idCAT hem apropat lAjuntament a la ciutadania" "Mitjançant els serveis de Govern Obert de lAOC hem pogut fer fàcil el que sembla difícil" "Al tauler electrònic pots penjar fins i tot el projecte sencer i al final et permet fer també la diligència" Àrea de Promoció Econòmica, Administració i Hisenda "El Sobre Digital i la PSCP han aconseguit una comunió senzilla entre empreses i administració per universalitzar la compra pública electrònica" "L e-SET és la implantació dun nou sistema de treball que facilita la feina del dia a dia" Cap del servei de contractació i compres "El Sobre Digital, una experiència imprescindible per a la bona administració amb estalvi de recursos i millora de la seguretat jurídica i la transparència" Àrea dOrganització i Administració Electrònica "El desplegament de la valisa electrònica ha estat clau en el procés de transformació digital dels nostres procediments interns" "L Hèstia permet el treball en temps real i des de qualsevol lloc, així com sistematitzar la pràctica professional, recollir la informació ordenadament i amb el mateix llenguatge" Consulta els materials del Congrés de Govern Digital 2019 Governs transparents, fluids, dinàmics, líquids... un bon lema pel principal objectiu de la governança del segle XXI: democratitzar-ho tot. Confluències, rius, cooperació. Catalunya, Mediterrània, mar de drets. A favor: totes les Administracions movent-se per posar-se al dia i millorar, tot aprofitant la revolució digital. En contra: quants cops estem reinventant la roda i quantes quantes oportunitats perdudes de fer-ho una única vegada i de forma coordinada i col·laborativa? "La transparència és una oportunitat. Hem de perdre tota por a explicar què fem": la conclusió de la taula dalcaldies de la Jornada de Govern Obert pic.twitter.com/ERbgLSIXZM El director general de Participació Ciutadana ens convida a transformar les administracions públiques a partir de la participació ciutadana Ens cal que allò que preocupa i ocupa els governants formi part dallò en què participa la ciutadania pic.twitter.com/NwQr4EZSCS: "A moltes institucions encara els sona xinés això de les dades obertes i la transparència. De que serveix que hi hagi un portal, si llavors no hi ha dades? Llavors laccés a la informació pels periodistes és molt parcial". Oferim eines que, conjuntament amb la metodologia i el suport necessari, fan possible lassoliment dun govern digital Posem al vostre abast tot el coneixement: formació, guies, normatives, etc. Tenim eines per gestionar àgilment part del procés administratiu del vostre ens El nostre equip farà tot el possible per resoldre les vostres incidències Sabem que es tracta duna decisió molt important per al vostre ens i és per això que us ho volem posar fàcil. La selecció de lactualitat dAdministració Oberta a la vostra safata." }
数据字段
text(str): 文本。
数据分割
数据集包含一个分割:train。
数据集创建
策划理由
我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的语言模型的发展。
源数据
初始数据收集和规范化
该语料库是通过在 2020 年 7 月爬取最受欢迎的 500 个 .cat 和 .ad 域名获得的。预处理使用了 Corpus-Cleaner,一个基于 Python 的模块化工具包,通过生成器管道清理原始文本语料库。
源语言生产者是谁?
数据来自多个加泰罗尼亚语网页。
注释
该数据集未注释。
注释过程
[N/A]
注释者是谁?
[N/A]
个人和敏感信息
由于所有数据来自公共网站,因此没有进行匿名化处理。
使用数据集的注意事项
数据集的社会影响
我们希望这个语料库有助于加泰罗尼亚语这种低资源语言的语言模型的发展。
偏见的讨论
我们意识到,由于数据来自不可靠的网页,数据集中可能存在一些偏见。尽管如此,我们没有采取任何步骤来减少其影响。
其他已知限制
[N/A]
附加信息
数据集策展人
文本挖掘单元 (TeMU) 在巴塞罗那超级计算中心 (bsc-temu@bsc.es)
这项工作由 [Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 资助,作为 Projecte AINA 的一部分。
许可信息
这项工作基于 Creative Commons Attribution 4.0 International 许可。
引用信息
bibtex @inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @albertvillanova 添加此数据集。



