MC^2

github2023-11-24 更新2024-05-31 收录

下载链接：

https://github.com/luciusssss/mc2_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

MC^2是一个包含中国四种少数民族语言（藏语、维吾尔语、哈萨克语和蒙古语）的多语言数据集，是目前最大的开源数据集。数据集分为两部分：MC^2 (crawl) 是从网络爬取的子集，而MC^2 (full) 则包含了从现有资源中收集的文本。数据集以JSON格式存储，每条记录包含标题、文本和URL三个键。

MC^2 is a multilingual dataset encompassing four Chinese minority languages (Tibetan, Uyghur, Kazakh, and Mongolian), representing the largest open-source dataset of its kind to date. The dataset is divided into two parts: MC^2 (crawl), a subset obtained through web crawling, and MC^2 (full), which includes texts collected from existing resources. Stored in JSON format, each record within the dataset contains three keys: title, text, and URL.

创建时间：

2023-11-13

原始信息汇总

数据集概述

数据集名称： MC^2

全称： Multilingual Corpus of Minority Languages in China

目的： 解决大型语言模型在理解中国低资源少数民族语言方面的不足，特别是由于预训练数据稀缺导致的问题。

包含语言：

藏语
维吾尔语
哈萨克语（阿拉伯文）
蒙古语（传统蒙古文）

数据集大小：

语言	MC^2 (crawl)	MC^2 (full)
藏语	1.7G	2.2G
维吾尔语	520M	736M
哈萨克语	397M	937M
蒙古语	970M	970M

数据集结构：

格式：JSON
每条记录包含三个键：title, text, url

数据获取方式：

主要通过网络爬虫收集
可从Hugging Face下载
还包括来自CulturaX和Wikipedia的数据，需使用特定脚本处理

预训练模型：

MC^2XLMR-large: XLM-RoBERTa-large 在MC^2上继续预训练
MC^2Llama-13B: Llama2-13b 在中文语料和MC^2上继续预训练

许可证：

使用Creative Commons CC0许可证，即“无版权保留”

贡献者：

Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong Feng

搜集汇总

数据集介绍

构建方式

MC^2数据集的构建旨在解决中国少数民族语言在自然语言处理中的低资源问题。通过精心设计的网络爬虫技术，数据集从多个来源收集了藏语、维吾尔语、哈萨克语（阿拉伯字母）和蒙古语（传统蒙古文）的文本。此外，数据集还整合了来自CulturaX和Wikipedia的现有资源，确保了数据的多样性和广泛性。在数据收集过程中，特别注重了文本的质量和准确性，避免了语言污染问题。

特点

MC^2数据集的特点在于其专注于中国少数民族语言的多样性，尤其是哈萨克语和蒙古语的非主流书写系统。数据集不仅提供了大量的文本数据，还通过地理文化探测强调了文化意识的重要性。此外，MC^2是迄今为止最大的开源少数民族语言语料库，其开放访问政策使得研究人员和开发者能够自由使用和进一步研究这些语言。

使用方法

MC^2数据集的使用方法相对直观。用户可以通过Hugging Face平台直接下载网络爬取的数据。对于来自CulturaX和Wikipedia的数据，用户需使用提供的Python脚本进行处理。这些脚本能够将原始数据转换为JSON格式，便于进一步的分析和应用。此外，数据集还提供了两个预训练模型，用户可以根据需要选择使用，以支持在少数民族语言上的自然语言处理任务。

背景与挑战

背景概述

MC^2数据集由北京大学的研究团队于2024年推出，旨在解决中国少数民族语言在自然语言处理（NLP）领域中的资源匮乏问题。该数据集涵盖了藏语、维吾尔语、哈萨克语（阿拉伯字母）和蒙古语（传统蒙古文）四种少数民族语言，是目前最大的开源多语言语料库之一。MC^2的创建不仅填补了低资源语言在预训练数据上的空白，还特别关注了这些语言的书写系统和文化背景，推动了透明且具有文化意识的NLP研究。该数据集的研究成果已在ACL 2024会议上发表，对少数民族语言的NLP技术发展具有重要意义。

当前挑战

MC^2数据集在构建过程中面临多重挑战。首先，少数民族语言的书写系统多样且复杂，例如哈萨克语的阿拉伯字母和蒙古语的传统蒙古文，这些书写系统在现有语料库中长期被忽视，导致数据收集和标注的难度增加。其次，现有语料库中普遍存在语言污染问题，MC^2团队通过质量优先的策略，确保数据的准确性和多样性。此外，文化意识的融入也是重要挑战，团队通过地理文化探测技术，强调书写系统与文化背景的关联性，以提升模型的跨文化理解能力。这些挑战的解决为低资源语言的NLP研究提供了新的思路和方法。

常用场景

经典使用场景

MC^2数据集在自然语言处理（NLP）领域中的经典使用场景主要集中在对中国少数民族语言的文本分析和模型训练。该数据集涵盖了藏语、维吾尔语、哈萨克语（阿拉伯字母）和蒙古语（传统蒙古文）四种语言，为研究人员提供了丰富的语料资源，尤其是在处理低资源语言时，能够显著提升模型的性能和泛化能力。通过MC^2，研究者可以构建和优化多语言模型，特别是在跨语言迁移学习和文化感知的NLP任务中，展现出其独特的价值。

衍生相关工作

基于MC^2数据集，研究者们已经开发了多个经典的多语言模型，如MC^2XLMR-large和MC^2Llama-13B。这些模型在跨语言任务中表现出色，尤其是在低资源语言的处理上，展现了MC^2数据集的强大潜力。此外，MC^2还启发了更多关于文化感知NLP的研究，推动了多语言模型在文化多样性保护中的应用，相关成果已在多个国际顶级会议上发表，进一步扩大了其学术影响力。

数据集最近研究