CulturaX

arXiv2023-09-18 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/uonlp/CulturaX

下载链接

链接失效反馈

资源简介：

CulturaX是由俄勒冈大学计算机科学系创建的一个大规模多语言数据集，包含167种语言的6.3万亿个令牌。该数据集通过多阶段严格清洗和去重流程，包括语言识别、URL过滤、基于度量的清洗、文档精化和数据去重，确保了模型训练的最高质量。CulturaX旨在解决现有数据集在多语言学习场景中的不足，特别是缺乏开放源代码和易于使用的数据集来有效训练多语言大型语言模型（LLMs）的问题。该数据集的应用领域广泛，旨在促进多语言学习领域的研究和进步。

CulturaX is a large-scale multilingual dataset created by the Department of Computer Science at the University of Oregon, containing 6.3 trillion tokens across 167 languages. It adopts a multi-stage rigorous cleaning and deduplication pipeline, including language identification, URL filtering, metric-based cleaning, document refinement and data deduplication, to ensure the highest quality for model training. CulturaX aims to address the shortcomings of existing datasets in multilingual learning scenarios, particularly the lack of open-source and easy-to-use datasets for effectively training multilingual large language models (LLMs). It covers a wide range of application scenarios and is designed to promote research and advancement in the field of multilingual learning.

提供机构：

俄勒冈大学计算机科学系

创建时间：

2023-09-18

搜集汇总

数据集介绍

构建方式

CulturaX 数据集的构建始于对现有大型语言模型（LLMs）训练数据集透明度和质量的关注。为了解决现有数据集在语言识别、数据质量和多语言覆盖方面的不足，研究者们融合了 mC4 和 OSCAR 两个最大的多语言数据集，并进行了深度清洗和去重。首先，他们使用 FastText 工具重新预测了 mC4 中文档的语言，以提高语言识别的准确性。接着，通过 URL 过滤移除了来自已知有害来源的页面，并通过基于指标的数据清洗过程过滤了噪声和低质量文档。最后，采用 MinHashLSH 算法在文档级别进行了去重，以确保数据集的高质量。

使用方法

CulturaX 数据集可广泛应用于多语言 LLM 的训练和研究。用户可以从 HuggingFace 平台下载该数据集，并根据自身需求进行预处理和训练。在使用过程中，用户需要注意数据集的版权和使用协议，并确保在使用数据集的过程中遵守相关法律法规。此外，由于数据集规模庞大，用户需要具备一定的计算资源和数据处理能力。

背景与挑战

背景概述

在大型语言模型（LLM）领域，训练数据集的规模和质量是模型性能的关键因素。然而，当前最先进的LLM的训练数据集往往缺乏透明度，限制了研究社区对模型幻觉和偏见问题的深入理解。同时，现有的多语言文本数据集在收集和清洗方面存在不足，无法满足多语言LLM训练的需求。为了解决这些问题，CulturaX数据集应运而生。CulturaX是一个包含167种语言的庞大、清洁的多语言数据集，旨在促进LLM在多语言场景下的研究和应用。该数据集由俄勒冈大学计算机科学系和Adobe Research的研究人员合作创建，于2023年9月发布。CulturaX的创建涉及多个阶段的数据清洗和去重过程，包括语言识别、基于URL的过滤、基于指标的清洗、文档精炼和数据去重。该数据集的发布为多语言LLM的研究和应用提供了重要的资源，推动了LLM在多语言场景下的进步。

当前挑战

尽管CulturaX数据集在多语言LLM训练方面取得了重要进展，但仍然面临着一些挑战。首先，多语言数据集的构建需要解决语言识别的准确性问题，以确保数据集中每种语言的数据质量。其次，数据清洗和去重过程中需要制定合适的指标和阈值，以有效地去除噪声和冗余内容。此外，数据集的构建还需要考虑不同语言之间的平衡，以确保模型在多语言场景下的性能。最后，数据集的维护和更新也需要持续的努力，以确保其能够适应不断发展的LLM技术。为了应对这些挑战，研究人员需要进一步探索和完善数据清洗和去重技术，并开发更有效的多语言LLM训练方法。

常用场景

经典使用场景

CulturaX数据集作为一项突破性的成果，旨在解决大型语言模型（LLMs）在多语言学习场景中面临的挑战。其经典使用场景包括训练具有强大语言理解能力和生成能力的LLMs，尤其是在167种语言中。CulturaX数据集经过精心清洗和去重，确保了数据质量，为多语言LLMs的训练提供了高质量的语料库。此外，CulturaX数据集也适用于研究LLMs中的幻觉和偏见问题，以及开发更透明、可复现的LLMs模型。

解决学术问题

CulturaX数据集解决了LLMs训练数据不透明和难以获取的问题，特别是在多语言学习场景中。它通过提供高质量的、可公开访问的多语言语料库，促进了LLMs研究的发展。CulturaX数据集还解决了现有多语言数据集规模和质量不足的问题，为训练高性能的多语言LLMs提供了必要的数据基础。此外，CulturaX数据集也促进了LLMs研究的透明度和可复现性，使得研究人员可以更好地理解和解决LLMs中的幻觉和偏见问题。

实际应用

CulturaX数据集在多语言自然语言处理（NLP）领域具有广泛的应用前景。它可以用于训练具有多语言能力的聊天机器人、机器翻译系统和文本生成工具等。此外，CulturaX数据集还可以用于开发具有更广泛语言覆盖范围的语音识别和合成系统。CulturaX数据集还可以用于开发具有多语言能力的教育工具和语言学习应用程序。此外，CulturaX数据集还可以用于开发具有多语言能力的虚拟助手和智能客服系统。

数据集最近研究