projecte-aina/catalan_general_crawling

Name: projecte-aina/catalan_general_crawling
Creator: projecte-aina
Published: 2024-10-22 10:00:45
License: 暂无描述

Hugging Face2024-10-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/catalan_general_crawling

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - no-annotation language_creators: - found language: - ca license: - cc-by-4.0 multilinguality: - monolingual size_categories: - 1M<n<10M source_datasets: - original task_categories: - fill-mask task_ids: [] pretty_name: Catalan General Crawling dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 1852143914 num_examples: 711140 download_size: 1011471154 dataset_size: 1852143914 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for Catalan General Crawling ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://zenodo.org/record/5483031 - **Paper:** [Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan](https://arxiv.org/abs/2107.07903) - **Point of Contact:** langtech@bsc.es ### Dataset Summary The Catalan General Crawling Corpus is a 435-million-token web corpus of Catalan built from the web. It has been obtained by crawling the 500 most popular .cat and .ad domains during July 2020. It consists of 434,817,705 tokens, 19,451,691 sentences and 1,016,114 documents. Documents are separated by single new lines. It is a subcorpus of the Catalan Textual Corpus. This work is licensed under a [Creative Commons Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/) license. ### Supported Tasks and Leaderboards This corpus is mainly intended to pretrain language models and word representations. ### Languages The dataset is in Catalan (`ca-ES`). ## Dataset Structure ### Data Instances ``` { 'text': 'Reduïu els costos dels processos administratius al vostre organisme públic\nEviteu els desplaçaments i pèrdua de temps als ciutadans en les seves gestions\nOferiu una administració més transparent a ciutadans i empreses\nEns grans i petits experimenten aquesta transformació amb èxit, gràcies al suport de l\'AOC\nDepartament de Sistemes d\'Informació i Processos\n" Via Oberta ens ha permès fer efectiu el d ret dels ciutadans a no aportar documents, eliminant paper i simplificant procediments"\n" e.FACT proporciona informació indispensable per a la realització de les auditories del registre comptable de factures d e les Administracions Públiques Catalanes"\nCoordinador del departament d\'Informàtica\n"El servei VIA OBERTA és el que ha aportat majors avantatges per als ciutadans"\n"Amb l\' e-NOTUM hem escurçat els procedi ments en 12 dies, quasi un 40% menys!"\nCoordinadora d\'organització de persones i e-administració\n" Via Oberta ofereix millores per als ciutadans al no haver d\'aportar cap document"\nResponsable d\'Informàti ca i Administració Electrònica\n" e-TRAM ens ha permès implantar un servei de tramitació electrònica per als ciutadans de forma ràpida, senzilla i amb un cost reduït"\n"Els municipis amb pocs habitants trobem e n els serveis de l\'AOC la gratuïtat i la comoditat necessàries per dur a terme el nostre dia a dia"\n"Les T-CAT han permès incorporar de forma segura la signatura electrònica dins dels nostres procediments afa vorint la transformació digital de la nostra activitat"\nCap de Departament de Sistemes i Tecnologies de la Informació\n"Amb el desplegament de l\' idCAT hem apropat l\'Ajuntament a la ciutadania"\n"Mitjançant els serveis de Govern Obert de l\'AOC hem pogut fer fàcil el que sembla difícil"\n"Al tauler electrònic pots penjar fins i tot el projecte sencer i al final et permet fer també la diligència"\nÀrea de Promoció Econòmica, Administració i Hisenda\n"El Sobre Digital i la PSCP han aconseguit una comunió senzilla entre empreses i administració per universalitzar la compra pública electrònica"\n"L\' e-SET és la implantació d\'un nou sistema de treball que facilita la feina del dia a dia"\nCap del servei de contractació i compres\n"El Sobre Digital, una experiència imprescindible per a la bona administració amb estalvi de recurso s i millora de la seguretat jurídica i la transparència"\nÀrea d\'Organització i Administració Electrònica\n"El desplegament de la valisa electrònica ha estat clau en el procés de transformació digital dels nos tres procediments interns"\n"L\' Hèstia permet el treball en temps real i des de qualsevol lloc, així com sistematitzar la pràctica professional, recollir la informació ordenadament i amb el mateix llenguatge"\ nConsulta els materials del Congrés de Govern Digital 2019\nGoverns transparents, fluids, dinàmics, líquids... un bon lema pel principal objectiu de la governança del segle XXI: democratitzar-ho tot.\nConfluènc ies, rius, cooperació.\nCatalunya, Mediterrània, mar de drets.\nA favor: totes les Administracions movent-se per posar-se al dia i millorar, tot aprofitant la revolució digital.\nEn contra: quants cops estem re inventant la roda i quantes quantes oportunitats perdudes de fer-ho una única vegada i de forma coordinada i col·laborativa?\n"La transparència és una oportunitat.\nHem de perdre tota por a explicar què fem": l a conclusió de la taula d\'alcaldies de la Jornada de Govern Obert pic.twitter.com/ERbgLSIXZM\nEl director general de Participació Ciutadana ens convida a transformar les administracions públiques a partir de l a participació ciutadana\nEns cal que allò que preocupa i ocupa els governants formi part d\'allò en què participa la ciutadania pic.twitter.com/NwQr4EZSCS: "A moltes institucions encara els sona xinés això de les dades obertes i la transparència.\nDe que serveix que hi hagi un portal, si llavors no hi ha dades?\nLlavors l\'accés a la informació pels periodistes és molt parcial".\nOferim eines que, conjuntament amb l a metodologia i el suport necessari, fan possible l\'assoliment d\'un govern digital\nPosem al vostre abast tot el coneixement: formació, guies, normatives, etc.\nTenim eines per gestionar àgilment part del pro cés administratiu del vostre ens\nEl nostre equip farà tot el possible per resoldre les vostres incidències\nSabem que es tracta d\'una decisió molt important per al vostre ens i és per això que us ho volem pos ar fàcil.\nLa selecció de l\'actualitat d\'Administració Oberta a la vostra safata.' } ``` ### Data Fields - `text` (str): Text. ### Data Splits The dataset contains a single split: `train`. ## Dataset Creation ### Curation Rationale We created this corpus to contribute to the development of language models in Catalan, a low-resource language. ### Source Data #### Initial Data Collection and Normalization The corpus has been obtained by crawling the 500 most popular .cat and .ad domains during July 2020. For preprocessing we used [Corpus-Cleaner](https://github.com/TeMU-BSC/corpus-cleaner-acl), a modular Python-based toolkit to clean raw text corpora through generator pipelines. #### Who are the source language producers? The data comes from multiple web pages in Catalan. ### Annotations The dataset is unannotated. #### Annotation process [N/A] #### Who are the annotators? [N/A] ### Personal and Sensitive Information Since all data comes from public websites, no anonymisation process was performed. ## Considerations for Using the Data ### Social Impact of Dataset We hope this corpus contributes to the development of language models in Catalan, a low-resource language. ### Discussion of Biases We are aware that since the data comes from unreliable web pages, some biases may be present in the dataset. Nonetheless, we have not applied any steps to reduce their impact. ### Other Known Limitations [N/A] ## Additional Information ### Dataset Curators Text Mining Unit (TeMU) at the Barcelona Supercomputing Center (bsc-temu@bsc.es) This work was funded by the [Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) within the framework of [Projecte AINA](https://politiquesdigitals.gencat.cat/ca/economia/catalonia-ai/aina). ### Licensing Information This work is licensed under a [Creative Commons Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/) license. ### Citation Information ``` @inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} } ``` ### Contributions Thanks to [@albertvillanova](https://github.com/albertvillanova) for adding this dataset.

提供机构：

projecte-aina

原始信息汇总

数据集卡片 for Catalan General Crawling

数据集描述

数据集摘要

Catalan General Crawling Corpus 是一个包含 4.35 亿个词令的加泰罗尼亚语网络语料库，从网络构建而成。该语料库是通过在 2020 年 7 月爬取最受欢迎的 500 个 .cat 和 .ad 域名获得的。它包含 434,817,705 个词令，19,451,691 个句子，以及 1,016,114 个文档。文档之间由单个新行分隔。这是加泰罗尼亚语文本语料库的一个子语料库。

该工作基于 Creative Commons Attribution 4.0 International 许可。

支持的任务和排行榜

该语料库主要用于预训练语言模型和词表示。

语言

该数据集为加泰罗尼亚语 (ca-ES)。

数据集结构

数据实例

json { "text": "Reduïu els costos dels processos administratius al vostre organisme públic Eviteu els desplaçaments i pèrdua de temps als ciutadans en les seves gestions Oferiu una administració més transparent a ciutadans i empreses Ens grans i petits experimenten aquesta transformació amb èxit, gràcies al suport de lAOC Departament de Sistemes dInformació i Processos " Via Oberta ens ha permès fer efectiu el dret dels ciutadans a no aportar documents, eliminant paper i simplificant procediments" " e.FACT proporciona informació indispensable per a la realització de les auditories del registre comptable de factures de les Administracions Públiques Catalanes" Coordinador del departament dInformàtica "El servei VIA OBERTA és el que ha aportat majors avantatges per als ciutadans" "Amb l e-NOTUM hem escurçat els procediments en 12 dies, quasi un 40% menys!" Coordinadora dorganització de persones i e-administració " Via Oberta ofereix millores per als ciutadans al no haver daportar cap document" Responsable dInformàtica i Administració Electrònica " e-TRAM ens ha permès implantar un servei de tramitació electrònica per als ciutadans de forma ràpida, senzilla i amb un cost reduït" "Els municipis amb pocs habitants trobem en els serveis de lAOC la gratuïtat i la comoditat necessàries per dur a terme el nostre dia a dia" "Les T-CAT han permès incorporar de forma segura la signatura electrònica dins dels nostres procediments afavorint la transformació digital de la nostra activitat" Cap de Departament de Sistemes i Tecnologies de la Informació "Amb el desplegament de l idCAT hem apropat lAjuntament a la ciutadania" "Mitjançant els serveis de Govern Obert de lAOC hem pogut fer fàcil el que sembla difícil" "Al tauler electrònic pots penjar fins i tot el projecte sencer i al final et permet fer també la diligència" Àrea de Promoció Econòmica, Administració i Hisenda "El Sobre Digital i la PSCP han aconseguit una comunió senzilla entre empreses i administració per universalitzar la compra pública electrònica" "L e-SET és la implantació dun nou sistema de treball que facilita la feina del dia a dia" Cap del servei de contractació i compres "El Sobre Digital, una experiència imprescindible per a la bona administració amb estalvi de recursos i millora de la seguretat jurídica i la transparència" Àrea dOrganització i Administració Electrònica "El desplegament de la valisa electrònica ha estat clau en el procés de transformació digital dels nostres procediments interns" "L Hèstia permet el treball en temps real i des de qualsevol lloc, així com sistematitzar la pràctica professional, recollir la informació ordenadament i amb el mateix llenguatge" Consulta els materials del Congrés de Govern Digital 2019 Governs transparents, fluids, dinàmics, líquids... un bon lema pel principal objectiu de la governança del segle XXI: democratitzar-ho tot. Confluències, rius, cooperació. Catalunya, Mediterrània, mar de drets. A favor: totes les Administracions movent-se per posar-se al dia i millorar, tot aprofitant la revolució digital. En contra: quants cops estem reinventant la roda i quantes quantes oportunitats perdudes de fer-ho una única vegada i de forma coordinada i col·laborativa? "La transparència és una oportunitat. Hem de perdre tota por a explicar què fem": la conclusió de la taula dalcaldies de la Jornada de Govern Obert pic.twitter.com/ERbgLSIXZM El director general de Participació Ciutadana ens convida a transformar les administracions públiques a partir de la participació ciutadana Ens cal que allò que preocupa i ocupa els governants formi part dallò en què participa la ciutadania pic.twitter.com/NwQr4EZSCS: "A moltes institucions encara els sona xinés això de les dades obertes i la transparència. De que serveix que hi hagi un portal, si llavors no hi ha dades? Llavors laccés a la informació pels periodistes és molt parcial". Oferim eines que, conjuntament amb la metodologia i el suport necessari, fan possible lassoliment dun govern digital Posem al vostre abast tot el coneixement: formació, guies, normatives, etc. Tenim eines per gestionar àgilment part del procés administratiu del vostre ens El nostre equip farà tot el possible per resoldre les vostres incidències Sabem que es tracta duna decisió molt important per al vostre ens i és per això que us ho volem posar fàcil. La selecció de lactualitat dAdministració Oberta a la vostra safata." }

数据字段

text (str): 文本。

数据分割

数据集包含一个分割：train。

数据集创建

策划理由

我们创建这个语料库是为了促进加泰罗尼亚语这种低资源语言的语言模型的发展。

源数据

初始数据收集和规范化

该语料库是通过在 2020 年 7 月爬取最受欢迎的 500 个 .cat 和 .ad 域名获得的。预处理使用了 Corpus-Cleaner，一个基于 Python 的模块化工具包，通过生成器管道清理原始文本语料库。

源语言生产者是谁？

数据来自多个加泰罗尼亚语网页。

注释

该数据集未注释。

注释过程

[N/A]

注释者是谁？

[N/A]

个人和敏感信息

由于所有数据来自公共网站，因此没有进行匿名化处理。

使用数据集的注意事项

数据集的社会影响

我们希望这个语料库有助于加泰罗尼亚语这种低资源语言的语言模型的发展。

偏见的讨论

我们意识到，由于数据来自不可靠的网页，数据集中可能存在一些偏见。尽管如此，我们没有采取任何步骤来减少其影响。

其他已知限制

[N/A]

附加信息

数据集策展人

文本挖掘单元 (TeMU) 在巴塞罗那超级计算中心 (bsc-temu@bsc.es)

这项工作由 [Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 资助，作为 Projecte AINA 的一部分。

许可信息

这项工作基于 Creative Commons Attribution 4.0 International 许可。

引用信息

bibtex @inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

感谢 @albertvillanova 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集