ROOTS Corpus

Name: ROOTS Corpus
Creator: Hugging Face
Published: 2023-03-07 22:25:44
License: 暂无描述

arXiv2023-03-07 更新2024-06-21 收录

下载链接：

https://hf.co/bigscience-data

下载链接

链接失效反馈

官方服务：

资源简介：

ROOTS Corpus是一个1.6TB的多语言数据集，由国际多学科倡议BigScience研讨会形成，旨在研究和训练大型语言模型。该数据集覆盖59种语言，包括46种自然语言和13种编程语言，用于训练具有1760亿参数的BLOOM语言模型。数据集的创建和整理工作由BigScience负责，旨在通过开放科学和协作，将伦理、危害和治理问题置于前沿。此外，该数据集还发布了一个大型初始子集及其分析，旨在通过数据和处理工具支持大规模单语和多语建模项目，并促进对该大型多语言数据集的研究。

The ROOTS Corpus is a 1.6 terabyte (TB) multilingual dataset developed through the BigScience Workshop, an international multidisciplinary initiative, for researching and training large language models (LLMs). It covers 59 distinct languages, including 46 natural languages and 13 programming languages, and was utilized to train the 176-billion-parameter BLOOM language model. The creation and curation of this dataset are led by BigScience, which aims to prioritize ethics, harm mitigation and governance through open science and collaboration. Additionally, a large initial subset of the dataset and its corresponding analysis have been publicly released, to support large-scale monolingual and multilingual modeling projects via data and processing tools, and to promote research on this large multilingual dataset.

提供机构：

Hugging Face

创建时间：

2023-03-07

搜集汇总

数据集介绍

构建方式

ROOTS Corpus是由BigScience研讨会构建的一个大型多语言语料库，旨在研究和训练大型语言模型。该语料库由两部分组成：62%的文本来自社区选择和记录的语言数据源，包括现有NLP数据集和文档集合；38%的文本来自预处理的网络爬取数据OSCAR，并经过母语人士的过滤。为了提高数据质量，研究人员开发了数据工具和可视化工具，用于数据清洗、过滤和去重。

特点

ROOTS Corpus是一个庞大的多语言语料库，包含59种语言，其中46种自然语言和13种编程语言。该语料库涵盖了广泛的领域和语言，并通过社区参与和母语人士的筛选，确保了数据的质量和多样性。此外，研究人员还开发了数据工具和可视化工具，用于数据清洗、过滤和去重，并提供了对语料库的统计分析。

使用方法

使用ROOTS Corpus时，首先需要了解其数据结构和特点。该语料库由多个子语料库组成，每个子语料库包含不同语言的数据。用户可以根据自己的需求选择合适的子语料库进行使用。此外，研究人员还提供了数据工具和可视化工具，用于数据清洗、过滤和去重，并提供了对语料库的统计分析，方便用户更好地理解和利用该语料库。

背景与挑战

背景概述

随着语言模型的不断壮大，对大规模高质量文本数据集的需求从未如此迫切，尤其是在多语言环境中。BigScience研讨会是一个为期一年的国际和多学科倡议，旨在研究和训练大型语言模型，将伦理、危害和治理问题置于首位。本文记录了BigScience为汇编Responsible Open-science Open-collaboration Text Sources (ROOTS)语料库而进行的数据创建和管理工作，这是一个包含59种语言的1.6TB数据集，用于训练1760亿参数的BigScience Large Open-science Open-access Multilingual (BLOOM)语言模型。我们进一步发布了语料库的一个大型初始子集及其分析，希望为大规模的单语和多语言建模项目提供数据和处理工具，并激发围绕这个大型多语言语料库的研究。

当前挑战

该数据集面临的挑战包括：1)所解决的领域问题的挑战，即构建一个大规模高质量的多语言文本数据集，以支持训练大型语言模型；2)构建过程中所遇到的挑战，包括数据收集、清洗、去重和隐私保护等方面的问题。

常用场景

经典使用场景

ROOTS Corpus 作为大规模多语言文本数据集，其最经典的使用场景之一是训练大型语言模型。例如，BigScience 项目使用 ROOTS Corpus 训练了 1760 亿参数的 BLOOM 语言模型。此外，该数据集还可用于单语言和多语言建模项目，以促进相关研究。例如，研究者可以利用 ROOTS Corpus 进行语言建模、机器翻译、文本摘要、情感分析等任务。

衍生相关工作

ROOTS Corpus 衍生了许多相关的研究工作，例如： 1. BLOOM 语言模型：BLOOM 语言模型是 BigScience 项目使用 ROOTS Corpus 训练的，具有 1760 亿参数，支持多种语言。 2. 多语言语言模型训练：研究者可以利用 ROOTS Corpus 训练各种规模和类型的语言模型，例如 mBERT、XLM-R 等。 3. 机器翻译模型训练：利用 ROOTS Corpus 训练的模型可以进行高质量的机器翻译，支持多种语言对。 4. 文本摘要模型训练：ROOTS Corpus 可用于训练文本摘要模型，自动生成文本的摘要。 5. 情感分析模型训练：利用 ROOTS Corpus 训练的模型可以进行情感分析，识别文本中的情感倾向。

数据集最近研究