DCAD-2000

Name: DCAD-2000
Creator: 清华大学
Published: 2025-02-17 16:28:29
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11546v1

下载链接

链接失效反馈

官方服务：

资源简介：

DCAD-2000是一个大规模、高质量的多语言数据集，由清华大学等机构构建，包含2282种语言，数据量达到8.63亿份文档，46.72TB的存储大小，涵盖了155种高和中资源语言以及159种书写脚本。该数据集通过将数据清洗任务重新定义为异常检测问题，显著提高了数据质量，能够识别并移除噪声或异常内容。DCAD-2000适用于多种下游自然语言处理任务，特别是在提高低资源语言的多语言模型性能方面表现出色。

DCAD-2000 is a large-scale, high-quality multilingual dataset constructed by Tsinghua University and other institutions. It covers 2282 languages, with a total of 863 million documents and a storage size of 46.72 TB, and includes 155 high- and medium-resource languages as well as 159 writing scripts. By redefining the data cleaning task as an anomaly detection problem, this dataset significantly improves data quality by identifying and removing noisy or anomalous content. DCAD-2000 is applicable to a wide range of downstream natural language processing tasks, and particularly excels in enhancing the performance of multilingual models for low-resource languages.

提供机构：

清华大学

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

DCAD-2000 是一个大规模的多语言语料库，通过整合最新提取的 Common Crawl 数据和现有的多语言数据集构建而成。该数据集包含超过 2,282 种语言，数据量为 46.72TB，文档数为 8.63 亿，涵盖了 155 种高和中等资源语言以及 159 种书写脚本。为了克服当前数据清洗方法的局限性，DCAD-2000 将数据清洗重新定义为异常检测任务，通过动态过滤方法显著提高了数据质量，从而识别和去除噪声或异常内容。

特点

DCAD-2000 的特点包括：1. 语言覆盖范围广泛，包含超过 2,282 种语言；2. 数据量庞大，数据量为 46.72TB，文档数为 8.63 亿；3. 写作脚本多样，支持 159 种书写脚本；4. 资源分类全面，涵盖了 155 种高和中等资源语言，以及大量低资源语言。

使用方法

使用 DCAD-2000 数据集时，首先需要从数据集中提取文档，并计算每个文档的八个统计特征，包括词数、字符重复率、词重复率、特殊字符率、停用词率、标记词率、语言识别分数和困惑度分数。然后，使用异常检测算法，如 Isolation Forest，根据这些特征为每个文档计算异常分数。最后，根据异常分数将文档分为干净子集和异常子集，保留干净子集用于下游任务，如模型训练。

背景与挑战

背景概述

随着多语言大型语言模型（LLM）的快速发展，对高质量、多样化且清洁的多语言数据集的需求日益突出。为了应对这一挑战，清华大学、慕尼黑工业大学和慕尼黑机器学习中心的研究人员共同构建了DCAD-2000（Data Cleaning as Anomaly Detection）数据集。该数据集整合了从Common Crawl数据中提取的新数据以及现有的多语言数据集，涵盖了超过2282种语言，包括155种高和中等资源语言以及159种书写脚本，数据量达到46.72TB和8.63亿份文档。DCAD-2000旨在通过将数据清洗视为异常检测任务来克服当前数据清洗方法的局限性，从而显著提高数据质量。

当前挑战

DCAD-2000面临的主要挑战包括：1) 多语言数据集构建中的数据清洗问题。传统的数据清洗方法依赖于手动设置的启发式阈值，难以适应多语言数据的多样性。2) 构建过程中遇到的挑战。为了确保数据集的多样性和质量，研究人员需要从多个来源收集和整合数据，同时确保数据的时效性和相关性。3) 多语言模型训练中的低资源语言问题。尽管DCAD-2000在资源丰富的语言方面取得了显著进展，但仍有许多低资源语言的数据量不足，这可能会影响模型在这些语言上的性能。4) 数据清洗方法的可扩展性。异常检测方法虽然在提高数据质量方面表现出色，但其计算成本相对较高，需要更多的计算资源来处理大规模数据。

常用场景

经典使用场景

DCAD-2000 数据集主要被用于预训练多语言大型语言模型（LLMs）。该数据集提供了大规模的多语言语料库，覆盖了超过2282种语言，包含了8.63亿个文档和46.72TB的数据。这使得DCAD-2000成为研究和开发多语言LLMs的理想选择，尤其是在那些资源较少的语言中。此外，DCAD-2000 也被用于评估和比较不同的数据清洗方法，以及研究不同语言和语料库之间的特征分布。

衍生相关工作

DCAD-2000 数据集的发布催生了许多相关的研究工作。例如，一些研究人员使用 DCAD-2000 来评估和比较不同的数据清洗方法，以及研究不同语言和语料库之间的特征分布。此外，DCAD-2000 还被用于开发新的多语言LLMs，以及研究低资源语言的数据收集和处理方法。这些相关工作表明，DCAD-2000 是一个宝贵的资源，可以促进多语言NLP研究的发展。

数据集最近研究