ContraProST

github2024-11-25 更新2024-12-06 收录

下载链接：

https://github.com/apple/ml-speech-is-more-than-words

下载链接

链接失效反馈

官方服务：

资源简介：

ContraProST是一个用于评估语音到文本翻译系统韵律意识的数据集。该数据集包含双重对比的示例，具有两种不同的韵律和两种不同的翻译。它包括从英语到三种语言（德语、西班牙语、日语）的翻译，以及五种不同的韵律现象（句子重音、韵律断句、语调模式、情感韵律、礼貌性）。

ContraProST is a dataset designed to evaluate the prosodic awareness of speech-to-text translation systems. It features dual contrastive examples with two distinct prosodic styles and two different translation outputs. The dataset covers translations from English into three languages: German, Spanish, and Japanese, as well as five distinct prosodic phenomena: sentence stress, prosodic phrasing, intonation patterns, emotional prosody, and politeness prosody.

创建时间：

2024-11-16

原始信息汇总

ContraProST 数据集概述

数据集简介

ContraProST 是一个用于评估语音到文本翻译系统韵律感知能力的基准数据集。该数据集包含双对比示例，具有两种不同的韵律和两种不同的翻译。数据集涵盖从英语到德语、西班牙语和日语的翻译，并包含五种不同的韵律现象（句子重音、韵律断句、语调模式、情感韵律、礼貌性）。

数据格式

数据以CSV格式提供，文件包括 data/en_de.csv、data/en_es.csv 和 data/en_ja.csv。每条示例包含以下属性：

列名	描述
sentence	原始英语句子。
category	句子类别（例如，“句子重音”）。
subcategory	句子子类别，提供更具体的上下文（例如，“焦点敏感操作符”）。
domain	句子领域（例如，“法律”）。
ID	句子的唯一标识符。
audio quality	音频质量，1表示通过质量，2表示良好质量。更多信息请参阅附录C。
prosody1	句子的第一种韵律变化。
meaning1	第一种韵律变化对应的含义。
translation1	第一种韵律变化对应的翻译。
audio1	第一种韵律变化对应的音频文件路径。
prosody2	句子的第二种韵律变化。
meaning2	第二种韵律变化对应的含义。
translation2	第二种韵律变化对应的翻译。
audio2	第二种韵律变化对应的音频文件路径。

数据使用

数据集的目的是通过对比评估来判断系统是否倾向于选择正确的音频-翻译对。请参阅论文中的第3节“对比评估”。

引用

请按以下格式引用此工作：

Ioannis Tsiamas, Matthias Sperber, Andrew Finch, and Sarthak Garg. 2024. Speech Is More than Words: Do Speech-to-Text Translation Systems Leverage Prosody?. In Proceedings of the Ninth Conference on Machine Translation, pages 1235–1257, Miami, Florida, USA. Association for Computational Linguistics.

搜集汇总

数据集介绍

构建方式

ContraProST数据集的构建旨在评估语音到文本翻译系统对韵律的感知能力。该数据集通过精心设计，包含了双对比的示例，即每个示例具有两种不同的韵律和两种不同的翻译。数据集涵盖了从英语到德语、西班牙语和日语的翻译，并涉及五种不同的韵律现象：句子重音、韵律断点、语调模式、情感韵律和礼貌韵律。这些示例通过CSV格式存储，每个示例包含原始英语句子、类别、子类别、领域、唯一标识符、音频质量、两种韵律变体及其对应的含义、翻译和音频文件路径。

特点

ContraProST数据集的主要特点在于其双对比的设计，这使得系统能够通过对比评估来判断其对韵律的敏感度。此外，数据集涵盖了多种语言和韵律现象，提供了丰富的上下文信息，有助于全面评估系统的性能。每个示例的详细信息，包括韵律变体和对应的翻译，都经过精心标注，确保了数据的高质量和一致性。

使用方法

ContraProST数据集的主要用途是通过对比评估来检验系统是否能够正确识别和偏好正确的音频-翻译对。用户可以通过加载CSV文件，提取每个示例的详细信息，包括原始句子、韵律变体、翻译和音频文件路径，进行系统的评估和训练。具体的使用方法和评估步骤可参考相关论文中的第三部分“对比评估”。

背景与挑战

背景概述

ContraProST数据集由Ioannis Tsiamas、Matthias Sperber、Andrew Finch和Sarthak Garg于2024年创建，旨在评估语音到文本翻译系统对韵律的感知能力。该数据集的核心研究问题集中在系统是否能够利用韵律信息进行更准确的翻译。ContraProST不仅包含了从英语到德语、西班牙语和日语的翻译，还涵盖了五种不同的韵律现象，如句子重音、韵律断点、语调模式、情感韵律和礼貌性。这一数据集的推出，为韵律在语音翻译中的作用提供了新的研究视角，对计算语言学领域具有重要影响。

当前挑战

ContraProST数据集在构建过程中面临多项挑战。首先，如何准确捕捉和区分不同的韵律现象，确保数据的双重对比性，是一个技术难题。其次，跨语言的韵律表现差异显著，如何在不同语言间保持韵律特征的一致性，是数据集设计中的另一大挑战。此外，数据集的评估方法，特别是对比评估，需要系统能够区分正确与错误的音频-翻译对，这对系统的性能提出了高要求。这些挑战不仅影响了数据集的构建质量，也对其在实际应用中的效果提出了考验。

常用场景

经典使用场景

在语音处理领域，ContraProST数据集被广泛用于评估语音到文本翻译系统对韵律特征的感知能力。该数据集通过双对比设计，包含两种不同的韵律和相应的翻译，涵盖英语到德语、西班牙语和日语的翻译。研究者利用此数据集进行对比评估，旨在检测系统是否能正确识别并利用韵律信息来优化翻译结果。

实际应用

在实际应用中，ContraProST数据集为开发更智能的语音翻译工具提供了宝贵的资源。例如，在跨语言会议记录、多语言客服系统和实时字幕生成等领域，利用该数据集训练的模型能够更准确地捕捉和传达说话者的情感和意图，从而提升用户体验和沟通效率。

衍生相关工作

基于ContraProST数据集，研究者们开展了一系列相关工作，包括韵律感知模型的改进、多语言韵律对比分析以及情感识别在翻译中的应用。这些工作不仅深化了对韵律在语音翻译中作用的认识，还推动了跨语言沟通技术的创新，为未来的语音处理研究奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集