CALLHOME Egyptian Arabic Speech Translation Corpus

github2023-04-03 更新2024-05-31 收录

下载链接：

https://github.com/noisychannel/ARZ_callhome_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含CALLHOME埃及阿拉伯语语音翻译语料库，由多个部分组成，包括训练集、开发集、评估集和补充集。数据集文件采用TAB分隔格式，包含源文件和多个参考翻译文件。此外，还提供了自动语音识别（ASR）的输出结果，包括最佳输出和格网优化结果。

This dataset comprises the CALLHOME Egyptian Arabic speech translation corpus, which is divided into several sections, including training sets, development sets, evaluation sets, and supplementary sets. The dataset files are in TAB-separated format, containing source files and multiple reference translation files. Additionally, the output results of automatic speech recognition (ASR) are provided, including the best outputs and lattice optimization results.

创建时间：

2015-11-18

原始信息汇总

数据集概述

数据集名称

CALLHOME Egyptian Arabic Speech Translation Corpus

包含的数据集

CALLHOME Egyptian Arabic (1996) [LDC97T19] : train, dev, eval
NIST HUB5 evaluation dataset (1997) [LDC2002T38] : h5
CALLHOME Egyptian Arabic - supplements [LDC2002T39] : sup

翻译数据详情

ECA ’96 train : 20861 segments
ECA ’96 dev : 6415 segments
ECA ’96 test : 3044 segments
97 eval (H5) : 2800 segments
ECA supplement : 2722 segments

文件格式与结构

文件格式：TAB separated format (TSV)
源文件命名：callhome_{train,dev,eval,h5,sup}.ar
翻译文件命名：callhome_{train,dev,eval,h5,sup}.en.{0,1,2,3}
溢出翻译文件命名：callhome_{train,dev,eval,h5,sup}.en.over

ASR输出

提供两个系统的ASR输出，包括PLF (lattices), ASR 1-best output和lattice-oracle。
系统已针对dev set进行调优，dev-ASR输出不应作为测试集使用。

WER结果

ASR one-best
- SAT+SGMM : dev (58.06), dev2 (56.46), sup (63.29), h5 (61.41)
- DNN-Ensemble : dev (50.31), dev2 (49.54), sup (58.15), h5 (55.76)
ASR lattice oracle
- SAT+SGMM : dev (33.33), dev2 (33.17), sup (41.67), h5 (38.40)
- DNN-Ensemble : dev (23.56), dev2 (23.34), sup (32.22), h5 (28.16)

引用信息

论文标题：Translations of the CALLHOME Egyptian Arabic Corpus for Conversational Speech Translation
作者：Gaurav Kumar, Yuan Cao, Ryan Cotterell, Chris Callison-Burch, Daniel Povey, Sanjeev Khudanpur
发表年份：2014
会议：Proceedings of the International Workshop on Spoken Language Translation (IWSLT)
地点：Lake Tahoe, US
月份：December

搜集汇总

数据集介绍

构建方式

CALLHOME埃及阿拉伯语语音翻译语料库的构建基于多个LDC数据集，包括1996年的CALLHOME埃及阿拉伯语数据集、1997年的NIST HUB5评估数据集以及CALLHOME埃及阿拉伯语的补充数据集。每个参考段落在埃及阿拉伯语（ECA）中生成四种翻译，分别对应训练集、开发集、测试集和补充集。数据以TAB分隔格式（TSV）存储，源文件与参考翻译文件一一对应，部分段落还生成了额外的翻译，存储于溢出文件中。

特点

该数据集的特点在于其丰富的翻译多样性，每个参考段落均提供了四种不同的翻译版本，确保了翻译任务的多样性和挑战性。此外，数据集还包含了来自两个自动语音识别（ASR）系统的输出结果，包括PLF格式的语音识别网格、ASR最佳输出以及网格最优结果。这些ASR系统在开发集上进行了调优，提供了详细的词错误率（WER）结果，为语音识别研究提供了重要的基准数据。

使用方法

使用该数据集时，用户需首先通过提供的脚本构建数据分割，并修改Makefile以指向ECA LDC语料库的数据目录。运行`make`命令后，处理后的转录文件将生成于`corpora`目录中。数据集的使用不仅限于语音翻译任务，还可用于语音识别系统的性能评估与优化。用户可通过引用相关论文，进一步了解数据集的详细构建过程及其在语音翻译领域的应用。

背景与挑战

背景概述

CALLHOME Egyptian Arabic Speech Translation Corpus 是由约翰霍普金斯大学（JHU）的研究团队于2014年创建的一个专注于埃及阿拉伯语对话语音翻译的数据集。该数据集基于1996年发布的CALLHOME埃及阿拉伯语语料库（LDC97T19）以及1997年的NIST HUB5评估数据集（LDC2002T38）构建，旨在推动对话语音翻译领域的研究。研究人员通过生成多组参考翻译，提供了丰富的语言转换资源，涵盖了训练集、开发集和测试集等多个分区。该数据集在语音识别和机器翻译领域具有重要影响力，尤其是在低资源语言的翻译任务中，为相关研究提供了宝贵的数据支持。

当前挑战

CALLHOME Egyptian Arabic Speech Translation Corpus 面临的挑战主要体现在两个方面。首先，埃及阿拉伯语作为一种低资源语言，其语音和文本数据的稀缺性使得构建高质量的翻译模型尤为困难。其次，数据集的构建过程中，研究人员需要处理复杂的语音识别任务，尤其是在多方言和口语化表达的背景下，语音识别的准确率显著影响翻译质量。尽管研究人员提供了两种自动语音识别（ASR）系统的输出，但其词错误率（WER）仍然较高，表明在语音识别和翻译的联合优化方面仍有较大改进空间。此外，由于数据集的许可限制，原始语音转录文本无法直接提供，这进一步增加了数据预处理和模型训练的复杂性。

常用场景

经典使用场景

CALLHOME Egyptian Arabic Speech Translation Corpus 数据集在语音翻译领域具有重要应用，尤其是在埃及阿拉伯语到英语的翻译任务中。该数据集包含了大量的对话语音数据及其对应的翻译文本，广泛用于训练和评估自动语音识别（ASR）和机器翻译（MT）系统。研究人员可以通过该数据集进行多语言对话系统的开发与优化，特别是在处理低资源语言翻译任务时，该数据集提供了宝贵的资源支持。

衍生相关工作

基于 CALLHOME Egyptian Arabic Speech Translation Corpus 数据集，许多经典的研究工作得以展开。例如，Kumar 等人（2014）利用该数据集开发了高效的语音翻译模型，并在国际口语翻译研讨会（IWSLT）上发表了相关成果。此外，该数据集还催生了一系列关于低资源语言翻译和语音识别联合优化的研究，推动了语音翻译技术的进一步发展。

数据集最近研究