TANDO

github2022-05-16 更新2024-05-31 收录

下载链接：

https://github.com/Vicomtech/tando

下载链接

链接失效反馈

官方服务：

资源简介：

TANDO是一个用于Basque-Spanish文档级机器翻译模型的语料库，包含平行和对比数据集，覆盖文学、新闻、字幕、演讲、政治等多个领域。

TANDO is a corpus designed for Basque-Spanish document-level machine translation models, encompassing both parallel and comparative datasets. It spans a variety of domains including literature, news, subtitles, speeches, and politics.

创建时间：

2022-05-11

原始信息汇总

TANDO: A Corpus for Document-level Machine Translation

描述

TANDO是一个用于训练和评估Basque-Spanish文档级机器翻译模型的语料库。该语料库由ELKARTEK项目TANDO（2020-2021）的项目联盟成员准备，包括：

Vicomtech基金会
巴斯克大学（UPV/EHU）/ IXA团队
Elhuyar基金会
ISEA
Ametzagaiña

TANDO语料库包含平行和对比数据集，覆盖文学、新闻、字幕、演讲、政治等多个领域，可从以下链接下载：TANDO语料库

引用

若在您的研究中使用该语料库，请引用以下论文：

@inproceedings{gete-et-al2022tando-corpus, title={TANDO: A Corpus for Document-level Machine Translation}, author={Gete, Harritxu and Etchegoyhen, Thierry and Ponce, David and Labaka, Gorka and Aranberri, Nora and Corral, Ander and Saralegi, Xabier and Ellakuria Santos, Igor and Martin, Maite} booktitle={Proceedings of the 13th Edition of the Language Resources and Evaluation Conference (LREC 2022)}, location = {Marseille, France} year={2022}, pages = {TBD} }

许可证

TANDO语料库遵循Creative Commons BY-NC-SA 4.0许可协议。

联系方式

如有任何问题或建议，请联系：

Thierry Etchegoyhen: tetchegoyhen [AT] vicomtech [DOT] org
Harritxu Gete: hgete [AT] vicomtech [DOT] org

搜集汇总

数据集介绍

构建方式

TANDO语料库的构建过程依托于ELKARTEK项目的TANDO计划，由多个机构联合完成，包括Vicomtech基金会、巴斯克大学IXA团队、Elhuyar基金会、ISEA及Ametzagaiña。该语料库涵盖了文学、新闻、字幕、演讲和政治等多个领域，采用平行和对比数据集的形式，以文本格式呈现。数据集的构建旨在为巴斯克语-西班牙语文档级机器翻译提供训练和评估资源。

特点

TANDO语料库的特点在于其多领域覆盖性和双语平行数据的丰富性。它不仅包含文学、新闻等传统领域的文本，还纳入了字幕、演讲和政治等更具挑战性的内容，为机器翻译模型提供了多样化的训练场景。此外，语料库的对比数据集设计进一步增强了其在文档级翻译任务中的实用性，能够有效支持跨语言语义对齐的研究。

使用方法

TANDO语料库的使用方法较为灵活，用户可通过提供的链接下载完整的语料库压缩包。下载后，用户可根据需求提取特定领域的文本数据，用于训练或评估文档级机器翻译模型。在使用过程中，建议用户遵循Creative Commons BY-NC-SA 4.0许可协议，并在相关研究中引用提供的论文，以确保学术规范性和数据来源的透明性。

背景与挑战

背景概述

TANDO语料库是为巴斯克语-西班牙语文档级机器翻译模型训练与评估而构建的专用数据集，由ELKARTEK项目TANDO（2020-2021）的多个机构联合开发，包括Vicomtech基金会、巴斯克大学IXA团队、Elhuyar基金会、ISEA及Ametzagaiña。该语料库涵盖文学、新闻、字幕、演讲和政治等多个领域，包含平行与对比数据集，旨在推动文档级机器翻译技术的发展。其研究成果于2022年在语言资源与评估会议（LREC）上发表，为低资源语言对的机器翻译研究提供了重要支持。

当前挑战

TANDO语料库的构建面临多重挑战。首先，文档级机器翻译要求模型不仅理解句子层面的语义，还需捕捉跨句子的上下文信息，这对低资源语言对（如巴斯克语-西班牙语）尤为困难。其次，数据收集与标注过程中，需确保不同领域文本的多样性与代表性，同时保持高质量的翻译对齐。此外，巴斯克语作为低资源语言，其语言特性与西班牙语差异显著，进一步增加了数据处理的复杂性。这些挑战共同推动了文档级机器翻译技术的创新与优化。

常用场景

经典使用场景

TANDO数据集在文档级机器翻译领域具有广泛的应用，尤其是在巴斯克语和西班牙语之间的翻译任务中。该数据集涵盖了文学、新闻、字幕、演讲和政治等多个领域，为研究人员提供了丰富的语料资源，用于训练和评估文档级机器翻译模型。通过使用TANDO，研究人员能够更好地理解文档上下文对翻译质量的影响，从而提升翻译系统的整体性能。

衍生相关工作

基于TANDO数据集，研究人员已经开展了多项相关研究，特别是在文档级机器翻译模型的优化和评估方面。例如，一些研究利用TANDO数据集开发了基于神经网络的翻译模型，显著提升了翻译质量。此外，TANDO还促进了巴斯克语和西班牙语之间的语言资源建设，为其他低资源语言的机器翻译研究提供了宝贵的参考。

数据集最近研究