five

SEACrowd/culturax

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/culturax
下载链接
链接失效反馈
官方服务:
资源简介:
CulturaX是一个全面的多语言数据集,包含167种语言的6.3万亿个token,专为大型语言模型开发而设计。该数据集采用了先进的清洗和去重流程,包括语言识别和MinHash模糊去重,以确保模型训练的高质量数据。数据集以parquet格式存储,总大小为16TB,解压后为27TB,结合了最新的mC4和OSCAR语料库,特别强调非英语语言,以支持多语言模型训练。数据集的清洗验证使用了SentencePiece分词器和KenLM语言模型,并利用最新的Wikipedia数据进行困惑度评分。

CulturaX是一个全面的多语言数据集,包含167种语言的6.3万亿个token,专为大型语言模型开发而设计。该数据集采用了先进的清洗和去重流程,包括语言识别和MinHash模糊去重,以确保模型训练的高质量数据。数据集以parquet格式存储,总大小为16TB,解压后为27TB,结合了最新的mC4和OSCAR语料库,特别强调非英语语言,以支持多语言模型训练。数据集的清洗验证使用了SentencePiece分词器和KenLM语言模型,并利用最新的Wikipedia数据进行困惑度评分。
提供机构:
SEACrowd
原始信息汇总

CulturaX 数据集概述

基本信息

  • 名称: CulturaX
  • 语言:
    • ind (印尼语)
    • jav (爪哇语)
    • khm (高棉语)
    • lao (老挝语)
    • tgl (他加禄语)
    • min (米南卡保语)
    • mya (缅甸语)
    • sun (巽他语)
    • tha (泰语)
    • vie (越南语)
    • zlm (马来语)
    • ceb (宿务语)
    • war (瓦瑞语)
    • cbk (查瓦卡诺语)
    • bcl (比科尔语)
  • 任务类别:
    • 自监督预训练 (Self-Supervised Pretraining)
  • 标签:
    • 自监督预训练 (Self-Supervised Pretraining)

数据集描述

  • 规模: 包含6.3万亿个token,涵盖167种语言。
  • 格式:
    • Parquet格式: 16TB
    • 解压后: 27TB
  • 来源: 结合了最新的mC4和OSCAR语料库,强调非英语语言。
  • 数据处理:
    • 采用先进的清洗和去重过程,包括语言识别和MinHash模糊去重。
    • 使用SentencePiece tokenizer和KenLM语言模型进行数据清洗验证,利用最新的Wikipedia数据进行困惑度评分。

使用方法

使用datasets

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/culturax", trust_remote_code=True)

使用seacrowd

python import seacrowd as sc

加载默认配置的数据集

dset = sc.load_dataset("culturax", schema="seacrowd")

查看所有可用的子集配置

print(sc.available_config_names("culturax"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

许可证

  • 类型: 其他 (Other License)
  • 说明: 许可证条款严格遵循mC4和OSCAR的许可证。

引用

plaintext @article{nguyen2023culturax, author = {Thuat Nguyen and Chien Van Nguyen and Viet Dac Lai and Hieu Man and Nghia Trung Ngo and Franck Dernoncourt and Ryan A. Rossi and Thien Huu Nguyen}, title = {CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages}, journal = {arXiv preprint arXiv:2309.09400}, year = {2023}, url = {https://arxiv.org/abs/2309.09400}, }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建大规模多语言数据集的过程中,CulturaX采用了严谨的数据整合与净化策略。该数据集融合了mC4与OSCOR两大语料库的最新版本,覆盖167种语言,总计包含6.3万亿词元。通过语言识别与基于MinHash的模糊去重技术,有效剔除了冗余内容,确保了数据的纯净度。同时,利用SentencePiece分词器与KenLM语言模型,结合维基百科最新数据对语料进行困惑度评分,进一步验证了文本质量,最终形成16TB的压缩格式与27TB的解压格式,为多语言模型训练提供了坚实的数据基础。
特点
CulturaX数据集展现出显著的多语言覆盖与高质量特性,其核心在于对非英语语言的侧重,涵盖了东南亚地区如印尼语、爪哇语、高棉语、老挝语、他加禄语等在内的多种语言。数据集经过深度清洗与去重处理,确保了语料的多样性与代表性,避免了数据偏差。庞大的规模与精细的预处理使其成为支持自监督预训练任务的理想资源,尤其适用于开发具备跨语言理解能力的大语言模型,为全球语言技术研究提供了宝贵的多语言数据支撑。
使用方法
使用CulturaX数据集时,研究人员可通过Hugging Face的datasets库便捷加载,调用load_dataset函数并指定数据集名称即可获取。此外,借助seacrowd库,用户能够以更灵活的方式访问数据集,通过available_config_names查看所有可用配置,并按需选择特定语言或子集进行加载。在正式使用前,需访问指定链接完成确认步骤,并通过huggingface-cli登录进行身份验证,确保数据使用的合规性与安全性,从而高效地应用于多语言模型的训练与评估工作。
背景与挑战
背景概述
随着大规模语言模型在全球范围内的广泛应用,多语言数据的稀缺性成为制约模型性能的关键瓶颈。CulturaX数据集于2023年由Thuat Nguyen等研究人员构建,旨在为167种语言提供高质量、大规模的训练语料,特别关注东南亚等非英语语言资源。该数据集整合了mC4和OSCAR两大知名语料库的最新版本,通过先进的清洗和去重技术,如语言识别与MinHash模糊去重,确保了数据的纯净度与多样性。其6.3万亿令牌的庞大规模,不仅推动了多语言模型的公平发展,也为语言技术在全球范围内的普及奠定了坚实基础。
当前挑战
在构建CulturaX数据集的过程中,研究人员面临多重挑战。首要挑战在于解决多语言数据不平衡问题,许多低资源语言缺乏足够的高质量文本,导致模型训练时难以充分捕捉语言特性。其次,数据清洗与去重过程极为复杂,需应对不同语言的书写变体、噪声文本及跨语料重复内容,而MinHash等技术虽能提升效率,却仍需大量计算资源验证其有效性。此外,数据版权与伦理合规性也是不可忽视的障碍,数据集严格遵循原始语料库的许可协议,但整合过程中的法律协调仍需审慎处理。这些挑战共同凸显了构建大规模多语言数据集的艰巨性。
常用场景
经典使用场景
在自然语言处理领域,多语言大模型的预训练已成为推动技术前沿的关键环节。CulturaX数据集凭借其覆盖167种语言、包含6.3万亿令牌的庞大规模,为研究人员提供了高质量的跨语言文本资源。该数据集通过集成mC4和OSCAR语料库,并采用先进的清洗与去重技术,如MinHash模糊去重和基于KenLM语言模型的困惑度评分,确保了数据的纯净性与多样性。这使得CulturaX成为训练多语言基础模型的理想选择,尤其适用于那些需要处理东南亚等非英语语种的研究项目。
解决学术问题
学术界长期面临非英语语言数据稀缺且质量参差不齐的挑战,这限制了多语言模型的性能与泛化能力。CulturaX通过系统化的数据收集与清洗流程,有效解决了低资源语言语料不足、噪声干扰以及跨语言对齐困难等问题。该数据集不仅为语言模型的公平性评估提供了基准,还促进了跨语言迁移学习、语言表示对齐及多语言下游任务性能提升等核心研究方向的进展,对推动语言技术在全球范围内的均衡发展具有深远意义。
衍生相关工作
CulturaX的发布催生了一系列围绕多语言模型优化的经典研究工作。例如,基于该数据集训练的模型被用于探索低资源语言的表示学习效率,以及跨语言提示微调策略的有效性。相关研究进一步推动了如SEACrowd等多语言基准测试套件的开发,为东南亚语言任务提供了标准化评估框架。这些衍生工作不仅深化了对多语言模型泛化机制的理解,也为后续构建更高效、更公平的语言技术体系提供了方法论指导与实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作