TED-Parallel-Corpus
收藏github2020-02-24 更新2024-05-31 收录
下载链接:
https://github.com/onoff888/TED-Multilingual-Parallel-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
TED平行语料库是一个不断增长的多语言平行语料库集合,包含从TED演讲中提取的109种世界语言的单语语料库、双语平行语料库和多语平行语料库。该语料库包含超过1.2亿个对齐句子,用于统计机器翻译系统的句子对齐文本。
The TED Parallel Corpus is an expanding collection of multilingual parallel corpora, encompassing monolingual corpora, bilingual parallel corpora, and multilingual parallel corpora extracted from TED Talks in 109 world languages. This corpus contains over 120 million aligned sentences, utilized for sentence-aligned text in statistical machine translation systems.
创建时间:
2019-11-11
原始信息汇总
数据集概述
数据集名称
TED-Parallel-Corpus
数据集类型
- Bilingual Parallel Corpus: 包含12种语言的平行对齐句子,共计超过12000万句。
- Multilingual Parallel Corpus: 包含13种语言的平行对齐句子,共计超过60万句。
- Monolingual Corpus: 包含多种语言的单语句子。
语言覆盖
- Bilingual Parallel Corpus: 覆盖语言包括阿拉伯语、简体中文、繁体中文、荷兰语、法语、德语、希伯来语、意大利语、日语、韩语、俄语、西班牙语。
- Multilingual Parallel Corpus: 包含12种语言的平行对齐数据和4种南亚语言的平行对齐数据。
- Monolingual Corpus: 包含多种语言,如阿塞拜疆语、粤语、拉脱维亚语、简体中文等。
数据量
- Bilingual Parallel Corpus: 具体数据量未详细列出。
- Multilingual Parallel Corpus:
- 12种语言平行对齐数据:349,049句。
- 4种南亚语言平行对齐数据:389,764句。
- Monolingual Corpus: 各语言的具体句子数量未详细列出。
数据用途
数据集主要用于生成句子对齐的文本,供统计机器翻译系统使用。
数据处理
所有预处理工作均为自动完成,未进行手动校正。
搜集汇总
数据集介绍

构建方式
TED-Parallel-Corpus数据集的构建基于TED演讲的文本,涵盖了109种世界语言的单语、双语及多语平行语料库。构建过程中,采用自动化预处理方法,对所有文本进行了句子对齐,旨在为统计机器翻译系统提供训练数据,未经任何人工校正。
特点
该数据集的特点在于其规模宏大,包含超过120百万句的双语平行句对和超过60万句的多语平行句对。涵盖了广泛的语言种类,包括12种双语平行语料和13种多语平行语料,为多种语言处理任务提供了丰富的资源。所有数据均自动处理,保证了处理速度和效率。
使用方法
使用TED-Parallel-Corpus数据集时,用户需遵守其使用条款,仅限用于科学研究目的,并确保在使用数据时正确引用和归功。数据集可通过其GitHub页面获取,用户需自行下载并按照相应的语言对进行使用,同时应确保不对数据内容进行任何形式的修改或传递给第三方。
背景与挑战
背景概述
TED-Parallel-Corpus是一套不断增长的平行语料库集合,包含了109种世界语言的单语语料库、12种语言的平行语料库和13种语言的多语言平行语料库。该语料库的抽取和处理旨在为统计机器翻译系统生成句子对齐的文本。所有预处理工作均自动完成,未进行任何手动校正。该数据集由Ajinkya Kulkarni先生负责创建和维护,自发布以来,在自然语言处理、机器翻译等领域产生了广泛影响,为相关研究提供了宝贵的资源。
当前挑战
在构建TED-Parallel-Corpus的过程中,研究人员面临了多项挑战。首先,自动处理和提取大规模语料库中的对齐句子需要高度精确的算法,以确保翻译对齐的质量。其次,由于数据集覆盖的语言种类繁多,不同语言之间的语法结构和表达习惯的差异为语料库的构建带来了额外的复杂性。此外,如何确保自动处理过程中数据的准确性和一致性,以及如何在保护版权的前提下合理使用公开可访问的资源,也是数据集构建过程中的重要考量。
常用场景
经典使用场景
TED-Parallel-Corpus作为一项从TED演讲中提取的双语及多语种平行语料库,其经典使用场景主要集中于统计机器翻译系统的训练与优化。通过自动化的预处理,该数据集提供了超过千万级的对齐句子,为研究者提供了丰富的语言资源,以便于开展翻译质量评估、翻译模型训练等关键任务。
实际应用
在实际应用中,TED-Parallel-Corpus被广泛应用于机器翻译服务、语言教学辅助工具以及多语言信息处理系统。其提供的平行语料为翻译软件的准确度和流畅度提升提供了重要帮助,同时也为语言学习者提供了丰富的翻译实例。
衍生相关工作
基于TED-Parallel-Corpus的研究成果丰富,衍生的相关工作包括构建多语言翻译模型、开发自动化的翻译评估工具、以及深入探索语言之间的对应关系等。这些研究进一步拓宽了该数据集的应用领域,推动了自然语言处理技术的进步。
以上内容由遇见数据集搜集并总结生成



