five

SEACrowd/cc100

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/cc100
下载链接
链接失效反馈
官方服务:
资源简介:
Cc100数据集是一个包含超过100种语言单语数据的大型语料库,旨在重现XLM-R模型的训练数据。该数据集通过处理2018年全年的CommonCrawl快照构建,使用CC-Net存储库提供的URL和段落索引。数据集支持多种语言,包括罗马化语言,文件格式为文档间双换行,段落间单换行。此外,数据集提供了使用`datasets`和`seacrowd`库加载数据集的详细指南。

Cc100数据集是一个包含超过100种语言单语数据的大型语料库,旨在重现XLM-R模型的训练数据。该数据集通过处理2018年全年的CommonCrawl快照构建,使用CC-Net存储库提供的URL和段落索引。数据集支持多种语言,包括罗马化语言,文件格式为文档间双换行,段落间单换行。此外,数据集提供了使用`datasets`和`seacrowd`库加载数据集的详细指南。
提供机构:
SEACrowd
原始信息汇总

数据集概述

语言

  • ind
  • jav
  • sun
  • mya
  • mya_zaw
  • lao
  • khm
  • tgl
  • vie
  • tha
  • zlm

任务类别

  • 自监督预训练

标签

  • 自监督预训练

数据集描述

该语料库旨在重现用于训练XLM-R的数据集。该语料库包含100多种语言的单语数据,还包括罗马化语言的数据(以*_rom表示)。该语料库是通过处理2018年1月至12月的Commoncrawl快照,使用CC-NET仓库提供的URL和段落索引构建的。每个文件包含由双换行符分隔的文档和由单换行符分隔的同一文档内的段落。数据生成使用了开源的CC-NET仓库。

数据集版本

  • 源版本: 2018.12.01
  • SEACrowd版本: 2024.06.20

数据集许可证

  • MIT

引用

@inproceedings{conneau-etal-2020-unsupervised, title = "Unsupervised Cross-lingual Representation Learning at Scale", author = "Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.747", doi = "10.18653/v1/2020.acl-main.747", pages = "8440--8451", abstract = "This paper shows that pretraining multilingual language models at scale leads to significant performance gains for a wide range of cross-lingual transfer tasks. We train a Transformer-based masked language model on one hundred languages, using more than two terabytes of filtered CommonCrawl data. Our model, dubbed XLM-R, significantly outperforms multilingual BERT (mBERT) on a variety of cross-lingual benchmarks, including +14.6{%} average accuracy on XNLI, +13{%} average F1 score on MLQA, and +2.4{%} F1 score on NER. XLM-R performs particularly well on low-resource languages, improving 15.7{%} in XNLI accuracy for Swahili and 11.4{%} for Urdu over previous XLM models. We also present a detailed empirical analysis of the key factors that are required to achieve these gains, including the trade-offs between (1) positive transfer and capacity dilution and (2) the performance of high and low resource languages at scale. Finally, we show, for the first time, the possibility of multilingual modeling without sacrificing per-language performance; XLM-R is very competitive with strong monolingual models on the GLUE and XNLI benchmarks. We will make our code and models publicly available.", }

@inproceedings{wenzek-etal-2020-ccnet, title = "{CCN}et: Extracting High Quality Monolingual Datasets from Web Crawl Data", author = "Wenzek, Guillaume and Lachaux, Marie-Anne and Conneau, Alexis and Chaudhary, Vishrav and Guzm{a}n, Francisco and Joulin, Armand and Grave, Edouard", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.494", pages = "4003--4012", abstract = "Pre-training text representations have led to significant improvements in many areas of natural language processing. The quality of these models benefits greatly from the size of the pretraining corpora as long as its quality is preserved. In this paper, we describe an automatic pipeline to extract massive high-quality monolingual datasets from Common Crawl for a variety of languages. Our pipeline follows the data processing introduced in fastText (Mikolov et al., 2017; Grave et al., 2018), that deduplicates documents and identifies their language. We augment this pipeline with a filtering step to select documents that are close to high quality corpora like Wikipedia.", language = "English", ISBN = "979-10-95546-34-4", }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言自然语言处理领域,构建高质量的大规模语料库是推动模型性能提升的关键。Cc100数据集的构建过程借鉴了XLM-R模型的训练数据制备方法,其核心在于利用CC-Net开源框架对2018年全年CommonCrawl网络爬虫快照进行系统化处理。该流程首先依据CC-Net仓库提供的URL与段落索引,从海量网络文本中提取原始数据;随后通过语言识别与去重技术,筛选出涵盖百余种语言的单语文本,其中特别包含了罗马化语言变体;最终生成的语料以文档为单位进行组织,文档间以双换行符分隔,文档内的段落则以单换行符区分,形成了结构清晰、便于机器读取的文本集合。
特点
作为服务于自监督预训练任务的语料库,Cc100展现出鲜明的多语言特性与规模优势。该数据集覆盖了超过100种语言,尤其关注东南亚地区语言生态,如印尼语、爪哇语、缅甸语等,并专门收录了罗马化书写形式的语言数据,为低资源语言研究提供了宝贵素材。其语料源于真实的网络文本,时间跨度集中于2018年,确保了内容的时效性与多样性。数据以纯净的文本形式呈现,文档与段落结构分明,既适合大规模分布式训练,也便于进行细粒度的语言学分析。
使用方法
在具体应用层面,研究人员可通过多种技术途径便捷地加载与使用Cc100数据集。最直接的方法是调用Hugging Face的`datasets`库,使用`load_dataset`函数并指定数据集名称即可载入,该方式支持远程代码信任以保障数据完整性。对于专注于东南亚语言研究的学者,亦可选用`seacrowd`这一专业化数据工具库,它提供了更贴合区域语言特性的数据模式与配置选项。用户可通过`available_config_names`函数查看所有可用的语言子集配置,并依据研究需求选择特定语言配置进行加载,从而实现灵活、有针对性的实验设计。
背景与挑战
背景概述
在自然语言处理领域,大规模多语言预训练模型的兴起,对高质量、多样化的语料库提出了迫切需求。Cc100数据集应运而生,由Meta AI等机构的研究人员于2020年前后构建,旨在复现XLM-R模型的训练数据。该数据集基于2018年全年CommonCrawl网络爬虫快照,利用CC-Net技术栈处理,涵盖超过100种语言的单语文本,特别关注东南亚等低资源语言。其核心研究问题在于解决跨语言表示学习中数据稀缺与质量不均的困境,通过提供海量、经过滤的文本资源,显著推动了多语言模型如XLM-R的发展,并在XNLI、MLQA等跨语言基准测试中展现出突破性影响,为低资源语言的自然语言处理研究奠定了数据基础。
当前挑战
Cc100数据集致力于应对多语言自监督预训练中的核心挑战,即如何为低资源语言提供充足且高质量的文本数据,以缓解传统方法中因数据匮乏导致的模型性能瓶颈。在构建过程中,挑战主要体现在两方面:一是从原始网络爬虫数据中精确提取并清洗文本,需有效去除重复内容、识别语言类别,并过滤低质量文档,确保语料接近Wikipedia等高标准资源;二是处理语言多样性带来的复杂性,特别是对东南亚等地区语言进行规范化与罗马化转换时,需克服字符编码、文本分割及文化语境差异等技术障碍,以维持数据的代表性与可用性。
常用场景
经典使用场景
在自然语言处理领域,多语言模型的预训练是推动跨语言理解的关键环节。Cc100数据集作为XLM-R模型的训练基础,其经典使用场景在于为涵盖100多种语言的单语文本提供大规模、高质量的语料资源。研究者利用该数据集进行自监督预训练,通过掩码语言建模等任务,使模型能够从海量无标注文本中学习深层的语言表征,从而为下游任务奠定坚实的语言学基础。
解决学术问题
Cc100数据集有效解决了多语言自然语言处理中低资源语言数据匮乏的学术难题。通过整合CommonCrawl爬取数据并经过严格去重与过滤,该数据集为包括东南亚语言在内的众多语言提供了标准化语料,显著提升了跨语言迁移学习的性能。其意义在于打破了语言资源不均衡的壁垒,使得研究者能够基于统一框架探索语言间的共享表征与特异性,推动了多语言模型在XNLI、MLQA等基准任务上的突破性进展。
衍生相关工作
Cc100数据集的发布催生了一系列经典研究工作,其中最突出的便是XLM-R模型,该模型在跨语言自然语言理解任务上设立了新的性能标杆。此外,围绕数据质量提升,CC-Net框架进一步优化了网络爬取数据的清洗与筛选流程。后续研究如SEACrowd项目则以此为基础,扩展了东南亚语言的多模态评测体系,推动了区域语言技术的生态化发展,为多语言计算社区的持续创新提供了数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作