SpeechBSD Dataset

github2024-02-07 更新2024-05-31 收录

下载链接：

https://github.com/ku-nlp/speechBSD

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechBSD数据集是对BSD语料库的扩展，包含了音频文件和说话人属性信息。数据集包括训练、开发和测试集，提供了详细的音频统计信息和说话人属性，如性别和地域来源。数据结构清晰，包括wav文件和json文件，详细记录了每个场景的信息和说话人的详细资料。

The SpeechBSD dataset is an extension of the BSD corpus, encompassing audio files and speaker attribute information. The dataset includes training, development, and test sets, providing detailed audio statistics and speaker attributes such as gender and geographical origin. The data structure is well-organized, comprising wav files and json files that meticulously document the information of each scene and the detailed profiles of the speakers.

创建时间：

2022-05-25

原始信息汇总

数据集概述

数据集名称

SpeechBSD Dataset

数据集描述

该数据集是对BSD corpus的扩展，包含音频文件和说话者属性信息。

数据集下载

通过git clone和wget命令从GitHub仓库下载。
也可通过huggingface下载。

数据集统计

	Train	Dev.	Test
Scenarios	670	69	69
Sentences	20,000	2,051	2,120
En audio (h)	20.1	2.1	2.1
Ja audio (h)	25.3	2.7	2.7
En audio gender (male % / female %)	47.2 / 52.8	50.1 / 49.9	44.4 / 55.6
Ja audio gender (male % / female %)	68.0 / 32.0	62.3 / 37.7	69.0 / 31.0

数据集结构

wav目录包含16 kHz、单声道的wav文件，分为train、dev、test。
txt目录包含json文件，同样分为train、dev、test。
- 每个json文件包含多个场景。
- 每个场景包含：
  - id, tag, title, original_language, conversation
  - conversation包含多个话语，每个话语包含：
    - no, ja_speaker, en_speaker, ja_sentence, en_sentence
    - ja_spkid, en_spkid（说话者ID）
    - ja_wav, en_wav（wav文件名）
    - ja_spk_gender, en_spk_gender（说话者性别）
    - ja_spk_prefecture, en_spk_state（说话者来源地）

数据集注意事项

性别标识为"M"或"F"。
说话者ID不同表示不同说话者，但可能存在同一说话者使用不同ID的情况。
音频性别信息可能与文本推断的性别不符。
日语说话者来自日本，英语说话者来自美国。

数据集引用

引用格式：

@inproceedings{shimizu-etal-2023-towards, title = "Towards Speech Dialogue Translation Mediating Speakers of Different Languages", author = "Shimizu, Shuichiro and Chu, Chenhui and Li, Sheng and Kurohashi, Sadao", booktitle = "Findings of the Association for Computational Linguistics: ACL 2023", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-acl.72", pages = "1122--1134", abstract = "We present a new task, speech dialogue translation mediating speakers of different languages. We construct the SpeechBSD dataset for the task and conduct baseline experiments. Furthermore, we consider context to be an important aspect that needs to be addressed in this task and propose two ways of utilizing context, namely monolingual context and bilingual context. We conduct cascaded speech translation experiments using Whisper and mBART, and show that bilingual context performs better in our settings.", }

数据集许可证

该数据集遵循CC-BY-NC-SA 4.0许可证。

搜集汇总

数据集介绍

构建方式

SpeechBSD数据集是基于BSD语料库的扩展，旨在为跨语言对话翻译任务提供支持。该数据集通过整合音频文件和说话者属性信息，进一步丰富了原始语料库的内容。音频文件以16 kHz的单声道WAV格式存储，并按照训练集、开发集和测试集进行分类。每个对话场景的文本信息以JSON格式保存，包含了对话的ID、标签、标题、原始语言以及详细的对话内容。对话内容中的每个话语均标注了说话者ID、性别、来源地等信息，确保了数据的多样性和实用性。

特点

SpeechBSD数据集的特点在于其多模态性和跨语言性。数据集不仅包含了丰富的文本对话信息，还提供了对应的音频文件，使得研究者能够在语音和文本之间进行多模态分析。此外，数据集涵盖了日语和英语两种语言，且每种语言的音频文件均标注了说话者的性别和来源地，为跨文化研究提供了宝贵资源。数据集的对话场景多样，涵盖了训练、开发和测试三个子集，确保了其在模型训练和评估中的广泛适用性。

使用方法

使用SpeechBSD数据集时，用户可以通过GitHub或Hugging Face平台进行下载。下载后，数据集的结构清晰，音频文件存储在`wav`目录下，文本信息则保存在`txt`目录中。用户可以根据需要加载相应的音频和文本文件，进行语音识别、机器翻译或多模态学习等任务。数据集的JSON文件结构便于解析，每个对话场景的详细信息均可通过编程接口轻松访问。此外，数据集的引用和许可信息明确，用户在使用时应遵循CC-BY-NC-SA 4.0许可协议，并引用相关论文以支持学术研究。

背景与挑战

背景概述

SpeechBSD数据集是BSD语料库的扩展版本，由京都大学的研究团队于2023年发布，旨在推动跨语言语音对话翻译的研究。该数据集不仅包含了原始的文本对话信息，还新增了音频文件和说话者属性信息，涵盖了日语和英语的双语对话。其核心研究问题在于如何通过语音对话翻译技术，实现不同语言使用者之间的无缝沟通。该数据集的发布为语音翻译领域提供了重要的实验基础，尤其是在多语言对话场景下的上下文理解和翻译模型优化方面，具有显著的影响力。

当前挑战

SpeechBSD数据集在构建和应用过程中面临多重挑战。首先，跨语言语音对话翻译任务本身具有复杂性，需要同时处理语音识别、机器翻译和语音合成等多个子任务，且需确保翻译的准确性和自然性。其次，数据集的构建过程中，音频与文本的性别信息不一致性增加了数据标注的难度，例如文本中的说话者性别可能与实际音频中的性别不符。此外，数据集的规模相对有限，尤其是测试集和开发集的样本量较小，可能限制模型的泛化能力。最后，如何有效利用上下文信息（如单语和双语上下文）来提升翻译性能，仍是该领域亟待解决的关键问题。

常用场景

经典使用场景

SpeechBSD数据集在语音对话翻译领域具有重要应用，特别是在跨语言对话翻译任务中。该数据集通过提供日英双语对话的音频和文本信息，为研究者提供了一个丰富的资源，用于训练和评估语音翻译模型。其经典使用场景包括语音识别、机器翻译以及跨语言对话系统的开发，尤其是在处理多语言对话时，能够有效模拟真实场景中的语言转换过程。

解决学术问题

SpeechBSD数据集解决了跨语言对话翻译中的多个学术问题。首先，它提供了高质量的日英双语对话数据，填补了该领域数据资源的空白。其次，数据集中的音频和文本信息为研究者提供了多模态数据，有助于开发更精确的语音翻译模型。此外，数据集还包含了说话者的性别和地域信息，为研究语言差异和语音特征提供了重要参考。这些特性使得该数据集在语音翻译、跨语言对话系统等领域具有重要的学术价值。

衍生相关工作

SpeechBSD数据集衍生了许多相关研究，特别是在语音翻译和跨语言对话系统领域。基于该数据集，研究者提出了多种改进语音翻译模型的方法，如利用上下文信息提升翻译准确性。此外，该数据集还被用于开发多模态对话系统，结合语音和文本信息进行更自然的对话交互。这些研究工作不仅推动了语音翻译技术的发展，也为跨语言对话系统的实际应用提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集