MultiOpenSubs Corpus

github2023-06-27 更新2024-05-31 收录

下载链接：

https://github.com/NeLyu/multi-opensubs

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库基于OPUS OpenSubtitles数据，主要用于比较语言学研究。它包含两个子语料库：Multiopensubs_euro（仅包含欧洲语言文本）和Multiopensubs_misc（包含非欧洲语言文本）。每个子语料库包含14种语言，具有统一的翻译单元和令牌数量，以避免数据不一致。

This corpus is based on the OPUS OpenSubtitles dataset, and is primarily designed for comparative linguistics research. It comprises two sub-corpora: Multiopensubs_euro, which exclusively contains texts in European languages, and Multiopensubs_misc, which includes texts in non-European languages. Each sub-corpus encompasses 14 languages, and adopts uniform translation units and token counts to avoid data inconsistency.

创建时间：

2023-06-27

原始信息汇总

MultiOpenSubs 数据集

概述

MultiOpenSubs 是一个基于 OPUS OpenSubtitles 数据的多语言平行语料库，主要用于比较语言学研究。该数据集包含两个子语料库：Multiopensubs_euro 和 Multiopensubs_misc。

Multiopensubs_euro

包含 14 种欧洲语言：保加利亚语、捷克语、荷兰语、英语、法语、德语、希腊语、意大利语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、西班牙语。
包含 109000 个翻译单元和约 790000 个词。

Multiopensubs_misc

包含 14 种语言：阿拉伯语、英语、法语、芬兰语、德语、希腊语、匈牙利语、意大利语、波兰语、葡萄牙语、俄语、塞尔维亚语、西班牙语、土耳其语。
包含 92000 个翻译单元和约 680000 个词。

特点

每个翻译单元包含所有 14 种语言的翻译。
与 OPUS OpenSubtitles 的主要区别在于数据的一致性，避免了不同语言对之间数据量的不一致。

MultiCompiler 脚本

允许用户从 60 种可用语言中自定义选择语言创建语料库。
使用英语作为枢纽语言进行语料库编译。
选择的语言越多，语料库包含的翻译单元越少；选择的语言越少，语料库越大。

使用要求

需要安装以下包：tqdm, pandas, wget, zipfile。
需要至少 10GB 的 RAM。

使用说明

输入文件为 ./Code/data/input_langs.txt，每行一个语言名称。
运行脚本：python3 collect_corpus.py。
输出包括 multisubscorpus 目录、zipFiles 和 fileForCorpus 文件夹。

搜集汇总

数据集介绍

构建方式

MultiOpenSubs Corpus的构建基于OPUS OpenSubtitles数据集，经过Jörg Tiedemann的许可，主要服务于比较语言学研究。该数据集包含两个子集：Multiopensubs_euro和Multiopensubs_misc，分别涵盖欧洲语言和非欧洲语言。每个子集包含14种语言的文本，且每个翻译单元在所有14种语言中都有对应的翻译。通过MultiCompiler脚本，用户可以根据需求从60种语言中选择构建自己的语料库，确保数据的一致性和广泛性。

特点

MultiOpenSubs Corpus的显著特点在于其多语言平行对齐的文本结构。每个翻译单元在所有14种语言中都有对应的翻译，避免了数据不一致的问题。此外，该数据集通过MultiCompiler脚本支持用户自定义语言选择，灵活性高。数据集中的文本经过严格对齐，确保了跨语言研究的可靠性。

使用方法

使用MultiOpenSubs Corpus时，用户需准备一个包含目标语言的文本文件`input_langs.txt`，每行一个语言名称。运行`collect_corpus.py`脚本后，系统将生成包含对齐文本的`multisubscorpus`目录。用户需确保系统具备至少10GB的内存以处理大文件。生成的文件可用于多语言对比研究，且所有文件行数一致，便于分析。

背景与挑战

背景概述

MultiOpenSubs Corpus是一个基于OPUS OpenSubtitles的多语言平行语料库，由Liubov Nesterenko等人开发，主要用于比较语言学研究。该语料库的创建旨在解决多语言数据集中常见的数据不一致性问题，特别是在不同语言对之间的翻译单元数量不匹配的情况下。MultiOpenSubs Corpus包含两个子语料库：Multiopensubs_euro和Multiopensubs_misc，分别涵盖14种欧洲语言和14种非欧洲语言。每个翻译单元在所有14种语言中都有对应的翻译，确保了数据的一致性和可比性。该语料库的构建依赖于OPUS OpenSubtitles的原始数据，并通过MultiCompiler脚本进行进一步处理，使得用户可以根据需要选择特定语言生成自定义语料库。

当前挑战

MultiOpenSubs Corpus在构建过程中面临的主要挑战包括数据一致性和语言覆盖范围的平衡。首先，原始OPUS OpenSubtitles数据集包含60种语言，但不同语言对之间的翻译单元数量差异较大，导致数据不一致。为了确保每个翻译单元在所有14种语言中都有对应的翻译，研究人员需要筛选和过滤大量不匹配的翻译单元。其次，随着语言数量的增加，匹配的翻译单元数量减少，这使得在保持数据量的同时扩展语言覆盖范围变得尤为困难。此外，MultiCompiler脚本的使用也带来了技术挑战，特别是在处理大规模数据时，需要较高的计算资源（如至少10GB的RAM）以确保数据处理的高效性。

常用场景

经典使用场景

MultiOpenSubs Corpus主要用于多语言平行语料库的研究，特别是在比较语言学领域。该数据集通过提供14种欧洲语言和其他非欧洲语言的平行文本，支持研究者进行跨语言的句法、语义和翻译研究。其独特的对齐机制确保了每种语言的翻译单元在所有14种语言中都有对应的文本，这为多语言对比分析提供了坚实的基础。

解决学术问题

MultiOpenSubs Corpus解决了多语言平行语料库中数据不一致的问题。传统语料库中，不同语言对的数据量差异较大，导致研究结果难以统一。该数据集通过筛选和统一翻译单元，确保了每种语言对的数据量均衡，从而为多语言对比研究提供了高质量的数据支持。这一改进显著提升了跨语言研究的准确性和可靠性。

衍生相关工作

基于MultiOpenSubs Corpus，研究者们开发了多种多语言处理工具和模型。例如，一些研究利用该数据集训练了多语言神经机器翻译模型，显著提升了低资源语言的翻译质量。此外，该数据集还催生了一系列跨语言语义相似度计算和文本对齐算法，为多语言自然语言处理领域的研究提供了重要的数据支持和技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集