TED-Parallel-Corpus
收藏github2020-11-22 更新2024-05-31 收录
下载链接:
https://github.com/Pythonnovice-ai/TED-Multilingual-Parallel-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
TED平行语料库是一个不断增长的包含双语平行语料、多语平行语料和单语语料的集合,从TED演讲www.ted.com提取,涵盖109种世界语言。它包括单语语料库、12种语言的双语平行语料库超过1.2亿对齐句子,以及13种语言的多语平行语料库,包含超过60万句子。提取和处理的目标是生成统计机器翻译系统所需的句子对齐文本。所有预处理都是自动完成的,没有进行人工校正。
The TED Parallel Corpus is an expanding collection comprising bilingual parallel corpora, multilingual parallel corpora, and monolingual corpora, extracted from TED Talks at www.ted.com, covering 109 world languages. It includes monolingual corpora, bilingual parallel corpora in 12 languages with over 120 million aligned sentences, and multilingual parallel corpora in 13 languages containing more than 600,000 sentences. The extraction and processing aim to generate sentence-aligned texts required for statistical machine translation systems. All preprocessing is automatically completed without manual correction.
创建时间:
2020-06-23
原始信息汇总
数据集概述
数据集名称
TED-Parallel-Corpus
数据集类型
- Bilingual parallel corpora
- Multilingual parallel corpora
- Monolingual corpora
数据集内容
- Bilingual Parallel Corpus: 包含12种语言的平行对齐句子,总计超过12000万对齐句子。涉及语言包括阿拉伯语、简体中文、繁体中文、荷兰语、法语、德语、希伯来语、意大利语、日语、韩语、俄语、西班牙语等。
- Multilingual Parallel Corpus: 包含13种语言的平行对齐句子,总计超过60万句子。涉及语言包括简体中文、繁体中文、日语、韩语等。
- Monolingual Corpus: 包含多种语言的单语数据,涉及语言广泛,如阿塞拜疆语、粤语、拉脱维亚语、简体中文、阿尔及利亚阿拉伯语、白俄罗斯语、马其顿语、克罗地亚语、马拉雅拉姆语、土耳其语、保加利亚语、塔加洛语、尼泊尔语、越南语、阿尔巴尼亚语、斯洛伐克语、马耳他语、瑞典厨师语、索马里语、印地语、藏语、加泰罗尼亚语、因古什语、塔吉克语、阿拉伯语、阿姆哈拉语、拉脱维亚语、爱沙尼亚语、海地克里奥尔语、乌兹别克语、普什图语、西班牙语、泰语、缅甸语、葡萄牙语、挪威博克马尔语、马来语等。
数据集目的
用于生成句子对齐文本,支持统计机器翻译系统的开发。
数据集处理
所有预处理工作均通过自动化方式完成,未进行人工校正。
使用条件
数据仅限于科学研究使用,不得转让给第三方。使用时必须适当记录和引用。
搜集汇总
数据集介绍

构建方式
TED-Parallel-Corpus数据集是通过从TED演讲网站(www.ted.com)自动提取和处理的文本构建而成,涵盖了109种世界语言的单语、双语和多语平行语料库。该数据集的构建目标是为统计机器翻译系统生成句子对齐的文本。所有预处理步骤均为自动化完成,未进行人工校正,确保了数据的一致性和规模。
特点
TED-Parallel-Corpus数据集的特点在于其广泛的语言覆盖和丰富的句子对齐资源。它包含12种语言的双语平行语料库,涵盖超过1.2亿条对齐句子,以及13种语言的多语平行语料库,包含超过60万条句子。此外,单语语料库覆盖了多种语言,为自然语言处理研究提供了多样化的语言数据支持。
使用方法
该数据集主要用于统计机器翻译系统的训练和评估。研究人员可以通过访问GitHub页面获取数据,并按照提供的格式加载和使用。数据的使用仅限于科学研究目的,且需在相关文献中明确引用。用户可通过联系作者获取更多语言对的数据或报告数据问题。
背景与挑战
背景概述
TED-Parallel-Corpus数据集由Ajinkya Kulkarni等人创建,旨在为统计机器翻译系统提供多语言对齐的句子数据。该数据集从TED演讲中提取,涵盖了109种世界语言,包括单语语料库、双语平行语料库和多语言平行语料库。其中,双语平行语料库包含12种语言的超过1.2亿对齐句子,多语言平行语料库则包含13种语言的60万句子。该数据集的自动预处理过程未进行人工校正,主要服务于机器翻译领域的研究与应用。自发布以来,TED-Parallel-Corpus已成为多语言翻译研究的重要资源,推动了跨语言自然语言处理技术的发展。
当前挑战
TED-Parallel-Corpus在构建和应用中面临多重挑战。首先,数据对齐的准确性是关键问题,自动预处理可能导致句子对齐错误,影响翻译模型的训练效果。其次,多语言数据的覆盖范围虽广,但某些语言的语料规模较小,限制了低资源语言翻译研究的进展。此外,数据集的自动处理未考虑文本内容的语义和上下文,可能导致翻译模型在处理复杂语境时表现不佳。最后,数据的使用仅限于科学研究,限制了其在商业应用中的广泛推广。这些挑战为后续研究提供了改进方向,例如引入人工校正、扩展低资源语言数据以及优化对齐算法等。
常用场景
经典使用场景
TED-Parallel-Corpus数据集在机器翻译领域具有广泛的应用,尤其是在统计机器翻译系统的开发中。该数据集提供了109种语言的单语、双语和多语平行语料库,涵盖了超过120万句对齐的句子。研究人员可以利用这些对齐的句子来训练和评估翻译模型,特别是在处理低资源语言时,该数据集提供了宝贵的资源。
解决学术问题
TED-Parallel-Corpus数据集解决了机器翻译领域中的多个关键问题,尤其是在多语言翻译模型的训练和评估方面。通过提供大规模的对齐句子,该数据集使得研究人员能够更好地处理语言之间的差异,尤其是在低资源语言的情况下。此外,该数据集还为跨语言信息检索、语言模型预训练等研究提供了基础数据支持。
衍生相关工作
TED-Parallel-Corpus数据集衍生了许多经典的研究工作,尤其是在多语言机器翻译和跨语言信息检索领域。例如,基于该数据集的研究成果被广泛应用于Google Translate等主流翻译工具中。此外,该数据集还为BERT、XLM-R等预训练语言模型的多语言版本提供了重要的训练数据,推动了自然语言处理领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



