five

CUTE

收藏
arXiv2025-09-21 更新2025-09-24 收录
下载链接:
https://github.com/CMLI-NLP/CUTE
下载链接
链接失效反馈
官方服务:
资源简介:
CUTE数据集是一个包含中文、维吾尔语、藏语和英语四种语言的跨语言语料库,旨在提升低资源语言在大型语言模型中的处理能力。数据集由两个25GB的四语种语料库组成,包括平行和非平行数据。CUTE是目前为止最大的开源维吾尔语和藏语语料库,通过机器翻译生成,并验证了其在大规模低资源语言数据生成中的可靠性。CUTE数据集的创建过程包括机器翻译、数据清洗和质量评估,旨在解决低资源语言在跨语言知识迁移中的挑战。

The CUTE dataset is a cross-lingual corpus covering four languages, namely Chinese, Uyghur, Tibetan and English, which is designed to enhance the processing capabilities of low-resource languages in large language models (LLMs). It consists of two 25GB four-language corpora containing both parallel and non-parallel data. To date, CUTE is the largest open-source corpus for Uyghur and Tibetan languages. It was generated via machine translation, and its reliability in large-scale low-resource language data generation has been verified. The creation process of the CUTE dataset includes machine translation, data cleaning and quality assessment, aiming to address the challenges in cross-lingual knowledge transfer for low-resource languages.
提供机构:
中国民族大学
创建时间:
2025-09-21
原始信息汇总

CUTE 数据集概述

数据集基本信息

  • 数据集名称:CUTE (Chinese, Uyghur, Tibetan, English)
  • 主要目标:增强低资源语言的跨语言知识迁移
  • 语言覆盖:中文、维吾尔语、藏语、英语
  • 数据集类型:大规模多语言数据集

数据集组成

语料类型

  • 平行语料 (CUTE-P):四种语言在内容上具有99.98%的平行性
  • 非平行语料 (CUTE-NP):除英语部分与平行语料相同外,其他语言的内容均不同

数据规模统计

平行语料 (CUTE-P)

语言 行数 大小(GB)
中文 933,946 2.62
英语 933,989 3.49
维吾尔语 934,002 7.37
藏语 934,140 11.22
总计 3,736,077 24.70

非平行语料 (CUTE-NP)

语言 行数 大小(GB)
中文 1,000,609 2.64
英语 933,989 3.49
维吾尔语 1,010,381 7.77
藏语 989,723 11.90
总计 3,934,702 25.80

数据质量评估

  • 中英翻译平均得分:9.1分
  • 中维翻译平均得分:8.5分
  • 中藏翻译平均得分:8.6分

使用说明

平行语料特点

  • 目前只能达到文档级平行,无法实现严格的句对级平行
  • 四种语言的文档整体平行度可达到99.98%
  • 句子顺序可能存在错乱,但不影响大语言模型的预训练
  • 主要用于多语言预训练,而非句对级的翻译任务

相关资源

数据集下载

  • HuggingFace地址:https://huggingface.co/datasets/CMLI-NLP/CUTE-Datasets
    • 平行语料:https://huggingface.co/datasets/CMLI-NLP/CUTE-Datasets/tree/main/parallel-corpus
    • 非平行语料:https://huggingface.co/datasets/CMLI-NLP/CUTE-Datasets/tree/main/non-parallel-corpus

预训练模型

  • 模型名称:CUTE-Llama
  • 基础架构:基于Llama2-7B开发
  • 模型版本
    • CUTE-Llama-P:使用平行语料训练的版本
    • CUTE-Llama-NP:使用非平行语料训练的版本
  • 模型特点:扩展了中文、维吾尔语和藏语的词表,针对低资源语言优化,支持跨语言知识迁移
  • 下载地址:https://huggingface.co/CMLI-NLP/CUTE-Llama

论文信息

  • 论文标题:CUTE: A Multilingual Dataset for Enhancing Cross-Lingual Knowledge Transfer in Low-Resource Languages
  • 会议:COLING 2025
  • 论文链接:https://aclanthology.org/2025.coling-main.670/
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言处理研究领域,数据稀缺问题长期制约着模型性能的提升。CUTE数据集通过机器翻译技术构建,以SkyPile-150B中文语料为源数据,采用经过人工评估验证的高质量机器翻译系统,生成维吾尔语、藏语和英语的对应文本。该数据集包含平行语料和非平行语料两个子集,平行语料通过严格对齐确保四语言内容相似度达99.98%,非平行语料则保持英语部分一致而其他语言内容各异,最终形成总规模约50GB的多语言语料库。
特点
作为当前最大的维吾尔语和藏语开源数据集,CUTE的突出特点体现在其语言覆盖的平衡性与数据质量的可靠性。数据集涵盖两种高资源语言(中文、英文)和两种低资源语言(维吾尔语、藏语),通过人工评估证实机器翻译质量接近中文-英文水平。文档长度分析显示各语言文本分布合理,维吾尔语平均文档长度达1094个标记,其他语言保持在800-1000标记区间。数据集有效解决了现有语料中存在的语言误识别、数据分布不均等问题,为跨语言知识迁移研究提供了理想实验平台。
使用方法
该数据集主要应用于低资源语言的预训练和跨语言迁移学习研究。研究者可通过词汇扩展和嵌入初始化技术,将CUTE语料融入Llama等基础模型架构进行持续预训练。实验表明,基于平行语料训练的CUTE-Llama模型在文本分类、关系抽取、机器阅读理解等下游任务中表现优异,特别是在零样本跨语言迁移场景下,藏语和维吾尔语任务准确率显著提升。数据集支持机器翻译任务的少样本提示学习,为探索平行语料在跨语言知识传递中的作用机制提供了标准化评估基准。
背景与挑战
背景概述
在自然语言处理领域,大规模语言模型虽在资源丰富语言中展现出卓越性能,但对低资源语言的支持仍显不足。CUTE数据集由中央民族大学研究团队于2025年构建,旨在通过整合汉语、英语两种高资源语言与维吾尔语、藏语两种低资源语言,构建总量达50GB的平行与非平行语料库。该数据集聚焦于解决低资源语言在预训练语料稀缺、跨语言知识迁移效率低下等核心问题,为少数民族语言的自然语言处理研究提供了迄今规模最大的开源资源,显著推动了跨语言表示对齐与机器翻译质量评估等研究方向的发展。
当前挑战
CUTE数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,需克服低资源语言与高资源语言间语义表示空间不对齐的难题,以及平行语料在跨语言知识迁移中作用机制的量化评估问题。构建过程中,机器翻译的质量控制成为关键挑战,特别是对维吾尔语和藏语中复杂语法结构与文化特有表达的准确转换;同时需确保四语言语料在内容并行度达到99.98%的技术可行性,并解决多语言文档长度分布差异对模型训练一致性的影响。
常用场景
经典使用场景
在跨语言自然语言处理研究中,CUTE数据集被广泛应用于评估大语言模型在低资源语言上的零样本迁移能力。该数据集通过提供包含汉语、维吾尔语、藏语和英语的平行与非平行语料,为研究者探索从资源丰富语言向低资源语言的知识迁移机制提供了重要实验基础。特别是在文本分类、关系抽取和机器阅读理解等任务中,CUTE已成为验证模型跨语言泛化性能的核心基准。
实际应用
该数据集在少数民族语言技术服务领域展现出重要价值,支持构建面向维吾尔语和藏语的智能问答系统、跨语言信息检索平台等实际应用。基于CUTE训练的CUTE-Llama模型在司法文书翻译、民族地区教育辅助等场景中表现优异,为打破语言数字鸿沟提供了技术基础。其高质量的四语对齐特性更使其成为跨境商务和多语政务系统的理想数据支撑。
衍生相关工作
CUTE数据集催生了包括CUTE-Llama在内的一系列少数民族语言大模型研究。基于该数据集的词汇扩展技术和嵌入初始化方法,推动了CINO、MiLMo等预训练模型的优化迭代。在跨语言提示学习领域,研究者利用其平行语料特性开发出新型知识蒸馏框架,为低资源语言指令微调提供了创新范式。这些衍生工作共同构成了中国少数民族语言计算研究的重要技术图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作