MC2
收藏arXiv2023-11-15 更新2024-06-21 收录
下载链接:
https://github.com/luciusssss/mc2_corpus
下载链接
链接失效反馈官方服务:
资源简介:
MC2是由北京大学创建的多语种少数民族语言数据集,是目前最大的开源数据集,涵盖了藏语、维吾尔语、哈萨克语和蒙古语四种语言。数据集通过高质量的网络爬虫技术收集,确保了数据的准确性和多样性。MC2特别关注少数民族语言的书写系统,首次收集了哈萨克语阿拉伯文和传统蒙古文的数据。该数据集旨在提升少数民族语言在人工智能服务中的平等性,为低资源语言的研究提供可靠的数据基础。
MC2 is a multilingual minority language dataset developed by Peking University. It is currently the largest open-source dataset covering four minority languages: Tibetan, Uyghur, Kazakh, and Mongolian. The dataset is collected using high-quality web crawling technologies, which ensures the accuracy and diversity of the data. MC2 places special emphasis on the writing systems of minority languages, and it is the first to collect data in Arabic-script Kazakh and traditional Mongolian scripts. The dataset aims to promote linguistic equality for minority languages in AI services, providing a reliable data foundation for research on low-resource languages.
提供机构:
北京大学
创建时间:
2023-11-15
搜集汇总
数据集介绍

构建方式
在构建MC2数据集的过程中,研究团队针对中国少数民族低资源语言数据稀缺与现有语料库污染问题,提出了一种以质量为核心的创新构建方案。该方案摒弃了传统依赖自动化语言识别工具的方法,转而采用人工维护高质量网站列表的策略,确保语言标识的准确性。通过结合人工智能辅助技术,精确提取网页标题与主体内容,有效剔除了侧边栏、页眉页脚等噪声文本。进一步,团队实施了严格的去重与过滤流程,包括基于SHA-256哈希的精确去重和基于MinHash的模糊去重,并设计了针对重复率、文档长度及非目标字符比例的过滤规则,最终整合了网络爬取数据与经纠错处理的现有开源资源,形成了规模庞大且洁净的语料库。
特点
MC2数据集展现出若干显著特征,使其在少数民族语言资源领域独树一帜。首先,该数据集在质量与多样性之间取得了良好平衡,语料来源覆盖新闻、政府报告、文化内容及维基百科等多个领域,确保了文本风格与主题的广泛代表性。其次,数据集突破了以往以句子级数据为主的局限,提供了大量适合长文本建模的文档,平均长度达807个词元,为低资源语言的长序列建模研究奠定了基础。尤为重要的是,MC2首次系统收录了长期被忽视的哈萨克语阿拉伯字母文字和传统蒙古文书写体系,致力于保护语言变体的文化独特性,为促进语言资源公平性提供了关键数据支撑。
使用方法
MC2数据集为低资源语言的自然语言处理研究提供了可靠的数据基础。研究者可直接利用该语料库进行大规模语言模型的预训练,以提升模型在藏语、维吾尔语、哈萨克语(阿拉伯字母)及蒙古语(传统蒙古文)上的理解与生成能力。鉴于语料包含不同领域的长文档,该数据集特别适用于探索低资源语言的长文本建模、跨书写系统迁移学习等新兴挑战。在使用过程中,需注意数据集中来源于维基百科的部分可能与某些评测基准存在重叠,建议根据具体任务审慎划分数据。数据集及其收集脚本已公开,支持社区进一步扩展与应用。
背景与挑战
背景概述
在自然语言处理领域,大规模语料库对于构建高性能语言模型具有不可或缺的作用。然而,中国少数民族语言作为低资源语言,长期以来因缺乏高质量训练数据而在大语言模型中处于边缘地位。为此,北京大学的研究团队于2023年推出了MC2语料库,这是迄今为止规模最大的开源中国少数民族语言多语种语料库。该语料库涵盖了藏语、维吾尔语、哈萨克语(阿拉伯字母)和蒙古语(传统蒙古文)四种代表性不足的语言,特别关注了以往被忽视的哈萨克阿拉伯字母和传统蒙古文书写系统。MC2的创建旨在提升这些语言在人工智能服务中的可及性,为相关语言模型研究提供可靠的数据基础,从而促进语言技术的公平发展。
当前挑战
MC2语料库所应对的核心挑战在于解决低资源语言在自然语言处理中的代表性不足问题。具体而言,现有语料库在少数民族语言部分存在严重的污染现象,例如语言误识别和文本噪声,这阻碍了模型对语言特性的准确学习。在构建过程中,研究团队面临语言识别的技术难题,因为当前工具对相似文字或低资源语言的识别准确率较低。此外,从网页中提取纯净文本、处理长文档建模以及平衡不同书写系统的数据代表性,均是构建高质量语料库过程中需要克服的关键挑战。
常用场景
经典使用场景
在自然语言处理领域,低资源语言的模型训练常受限于数据稀缺,MC2作为中国少数民族语言的大规模开源语料库,其经典使用场景在于为藏语、维吾尔语、哈萨克语(阿拉伯字母)和蒙古语(传统蒙古文)提供高质量、长文本的预训练数据。该数据集通过整合新闻、文化、政府文档等多领域内容,支持语言模型的构建与优化,尤其适用于探索低资源语言的长文本建模和多书写系统处理,为相关研究奠定了可靠的数据基础。
实际应用
在实际应用中,MC2为少数民族语言的信息服务与人工智能工具开发提供了关键支持。基于该数据集训练的模型可应用于新闻自动生成、政府文档翻译、文化内容数字化等领域,帮助母语者更便捷地获取信息。例如,在教育和公共服务中,MC2能助力构建智能问答系统或文本分类工具,促进语言资源的保护与传承,提升少数民族社区在数字时代的参与度与包容性。
衍生相关工作
MC2的发布催生了一系列针对中国少数民族语言的经典研究工作。以CINO、MiLMo和CMPT为代表的预训练模型曾依赖有限数据,而MC2为这些模型的优化与扩展提供了丰富语料。后续研究可基于其长文本和多书写系统特性,探索跨语言迁移学习、低资源机器翻译及文化特异性建模等方向,进一步推动如IndicCorp等区域语料库构建方法的借鉴与创新,形成低资源语言技术发展的良性生态。
以上内容由遇见数据集搜集并总结生成



