five

Helsinki-NLP/multiun

收藏
Hugging Face2024-02-27 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/multiun
下载链接
链接失效反馈
官方服务:
资源简介:
MultiUN平行语料库是从联合国网站提取的,经过清理并转换为XML格式。该数据集包含联合国六种官方语言的翻译文档,涵盖了从2000年到2009年发布的文件。数据集的主要任务是机器翻译,支持的语言包括阿拉伯语、中文、英语、法语、俄语和西班牙语,部分文档还包含德语。数据集的结构包含多个语言对的训练集,每个语言对的数据量较大,适合用于机器翻译任务的研究和开发。

The MultiUN Parallel Corpus is extracted from the United Nations website, cleaned and converted to XML format. This dataset contains translated documents in the six official languages of the United Nations, covering documents released from 2000 to 2009. The primary task of this dataset is machine translation, with supported languages including Arabic, Chinese, English, French, Russian and Spanish, and some documents also containing German. The dataset comprises training sets for multiple language pairs, each with a large volume of data, making it suitable for research and development of machine translation tasks.
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MultiUN (Multilingual Corpus from United Nation Documents)
  • 语言: 阿拉伯语 (ar)、德语 (de)、英语 (en)、西班牙语 (es)、法语 (fr)、俄语 (ru)、中文 (zh)
  • 许可证: 未知
  • 多语言性: 多语言
  • 数据集大小: 100K<n<1M
  • 源数据: 原始数据
  • 任务类别: 翻译

数据集配置

数据集包含多个语言对配置,每个配置包含训练数据。以下是部分配置的详细信息:

配置 ar-de

  • 特征:
    • translation: 包含阿拉伯语和德语的翻译对
  • 数据分割:
    • train: 包含165090个样本,总字节数为94466261
  • 下载大小: 41124373字节
  • 数据集大小: 94466261字节

配置 ar-en

  • 特征:
    • translation: 包含阿拉伯语和英语的翻译对
  • 数据分割:
    • train: 包含9759125个样本,总字节数为4189844561
  • 下载大小: 1926776740字节
  • 数据集大小: 4189844561字节

配置 ar-es

  • 特征:
    • translation: 包含阿拉伯语和西班牙语的翻译对
  • 数据分割:
    • train: 包含10119379个样本,总字节数为4509667188
  • 下载大小: 2069474168字节
  • 数据集大小: 4509667188字节

配置 ar-fr

  • 特征:
    • translation: 包含阿拉伯语和法语的翻译对
  • 数据分割:
    • train: 包含9929567个样本,总字节数为4516842065
  • 下载大小: 2083442998字节
  • 数据集大小: 4516842065字节

配置 ar-ru

  • 特征:
    • translation: 包含阿拉伯语和俄语的翻译对
  • 数据分割:
    • train: 包含10206243个样本,总字节数为5932858699
  • 下载大小: 2544128334字节
  • 数据集大小: 5932858699字节

配置 ar-zh

  • 特征:
    • translation: 包含阿拉伯语和中文的翻译对
  • 数据分割:
    • train: 包含9832293个样本,总字节数为3781650541
  • 下载大小: 1829880809字节
  • 数据集大小: 3781650541字节

数据集创建

  • 源数据: 从联合国网站提取的文档,由DFKI GmbH (LT-DFKI) 清理和转换为XML格式。
  • 数据集创建者: Andreas Eisele 和 Yu Chen

引用信息

如果使用此数据集,请引用以下论文:

@inproceedings{eisele-chen-2010-multiun, title = "{M}ulti{UN}: A Multilingual Corpus from United Nation Documents", author = "Eisele, Andreas and Chen, Yu", booktitle = "Proceedings of the Seventh International Conference on Language Resources and Evaluation ({LREC}10)", month = may, year = "2010", address = "Valletta, Malta", publisher = "European Language Resources Association (ELRA)", url = "http://www.lrec-conf.org/proceedings/lrec2010/pdf/686_Paper.pdf", abstract = "This paper describes the acquisition, preparation and properties of a corpus extracted from the official documents of the United Nations (UN). This corpus is available in all 6 official languages of the UN, consisting of around 300 million words per language. We describe the methods we used for crawling, document formatting, and sentence alignment. This corpus also includes a common test set for machine translation. We present the results of a French-Chinese machine translation experiment performed on this corpus.", }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译领域,构建高质量的多语言平行语料库是推动跨语言理解技术发展的基石。MultiUN数据集源自联合国官方网站发布的正式文件,涵盖了2000年至2009年间的文档。德国DFKI GmbH语言技术实验室的研究人员通过自动化爬取、文档格式清洗与转换,以及句子对齐等流程,将这些多语言文档整理为结构化的XML格式,最终形成了覆盖联合国六种官方语言的平行语料集合。
特点
该数据集以其广泛的语种覆盖和权威的文本来源而著称。它囊括了阿拉伯语、中文、英语、法语、俄语和西班牙语六种联合国官方语言,并包含部分德语内容,形成了21种语言对配置。语料规模庞大,每个语种约包含三亿词,且文本内容涉及国际政治、法律与社会议题,具备正式、规范的文体特征,为机器翻译模型提供了丰富且高质量的训练与评估资源。
使用方法
研究人员可通过HuggingFace的datasets库便捷加载MultiUN数据集,指定所需语言对配置即可获取相应的平行句对。该数据集主要应用于神经机器翻译模型的训练与评估,尤其适合构建多语言翻译系统或进行低资源语言对的迁移学习研究。其官方文档的文本特性也使其成为研究领域特定翻译和跨语言信息检索的理想数据来源。
背景与挑战
背景概述
在机器翻译领域,高质量、大规模的多语言平行语料库是推动模型性能提升的关键资源。MultiUN(Multilingual Corpus from United Nation Documents)数据集由德国DFKI GmbH语言技术实验室的Andreas Eisele和Yu Chen于2010年构建,其核心研究问题在于解决联合国六种官方语言(阿拉伯语、中文、英语、法语、俄语、西班牙语)及部分德语文档之间的自动翻译需求。该数据集提取自2000年至2009年间的联合国官方文件,涵盖约3亿词规模,为跨语言信息检索、多语言自然语言处理及机器翻译系统评测提供了权威且结构化的基准数据,显著促进了多语言技术在全球治理与文化交流中的应用。
当前挑战
MultiUN数据集所针对的机器翻译任务面临多重挑战:联合国文件涉及政治、法律及经济等专业领域,其文本具有高度正式性与术语复杂性,要求模型具备深度的领域适应与语义精确性;同时,语料涵盖语言对间形态与句法差异显著(如阿拉伯语与中文),加剧了跨语言对齐与翻译一致性的难度。在构建过程中,挑战主要集中于原始文档的爬取与清洗,需从异构格式的网页中提取并规范化文本;此外,大规模多语言句级对齐需克服文档结构不一致与语言非对称性问题,而德语等部分语言数据的有限性也制约了相关语言对的模型训练效果。
常用场景
经典使用场景
在机器翻译研究领域,MultiUN数据集凭借其源自联合国官方文件的权威语料,成为训练和评估多语言神经机器翻译模型的经典资源。该数据集覆盖了联合国六种官方语言之间的双向对齐,其文本具有正式、规范的文体特征,为构建高质量翻译系统提供了丰富的平行语料。研究者通常利用该数据集的大规模对齐句子对,进行跨语言表示学习、翻译模型预训练以及多语言翻译性能的基准测试。
解决学术问题
MultiUN数据集有效缓解了低资源语言对在机器翻译研究中数据稀缺的困境,尤其为阿拉伯语、俄语等语言提供了大规模高质量平行文本。该数据集支持研究者探索领域自适应问题,即如何将模型从通用领域迁移到正式公文领域。其多语言特性促进了零样本翻译、多语言联合建模等前沿方向的发展,为构建统一的多语言翻译框架奠定了数据基础,推动了机器翻译技术的民主化进程。
衍生相关工作
MultiUN数据集催生了一系列重要的学术研究。例如,它常被用作评估多语言BERT等预训练模型跨语言理解能力的基准数据。在OPUS项目框架下,该数据集与其他平行语料库整合,支撑了大规模多语言翻译系统的开发。相关研究进一步探索了基于该数据集的语言模型领域微调、低资源语言翻译增强,以及利用联合国文件进行术语一致性保持等具体课题,持续丰富着计算语言学的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作