english-conversation-corpus

github2023-03-13 更新2024-05-31 收录

下载链接：

https://github.com/thuhcsi/english-conversation-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库收集了66个公开可用的YouTube英语对话频道视频，用于对话式文本到语音合成研究。

This corpus comprises 66 publicly available YouTube English conversational channel videos, collected for research in conversational text-to-speech synthesis.

创建时间：

2021-06-07

原始信息汇总

数据集概述

数据来源

数据集包含66个公开视频，来源于YouTube上的English Conversation频道。

数据内容

视频内容为英语对话。

注释信息

注释文件位于conversations目录下。
说话者标签仅针对单个视频，不跨视频共享。

使用方法

音频和视频下载：使用download-audio.sh和download-video.sh脚本。
音频分割：运行segment.py脚本将音频分割成话语单元。

版权说明

注释和脚本版权属于数据集创建者，遵循GPLv3许可。
音频和视频版权属于YouTube的English Conversation频道，数据集仅用于非商业研究或教育目的。

引用信息

引用该数据集时，请参考ICASSP 2022论文。

bibtex @inproceedings{li_enhancing_2022, title = {Enhancing {Speaking} {Styles} in {Conversational} {Text}-to-{Speech} {Synthesis} with {Graph}-{Based} {Multi}-{Modal} {Context} {Modeling}}, copyright = {All rights reserved}, doi = {10.1109/ICASSP43922.2022.9747837}, booktitle = {{ICASSP} 2022 - 2022 {IEEE} {International} {Conference} on {Acoustics}, {Speech} and {Signal} {Processing} ({ICASSP})}, author = {Li, Jingbei and Meng, Yi and Li, Chenyi and Wu, Zhiyong and Meng, Helen and Weng, Chao and Su, Dan}, year = {2022}, note = {ISSN: 2379-190X}, keywords = {Speech, Recurrent neural networks, Acoustics, Conferences, Data mining, Signal processing, Speech enhancement, speaking style, conversational text-to-speech synthesis, graph neural network}, pages = {7917--7921}, }

搜集汇总

数据集介绍

构建方式

该数据集通过收集YouTube上English Conversation频道的66个公开视频构建而成。这些视频涵盖了多样化的英语对话场景，旨在为研究提供丰富的口语语料。数据集的标注信息存储在`conversations`目录中，每个视频的说话者标签仅在该视频内共享，未跨视频统一标注。用户可通过提交Pull Request更新标注信息，确保数据集的持续优化与扩展。

使用方法

用户可通过运行`download-audio.sh`和`download-video.sh`脚本下载音频和视频文件。随后，使用`segment.py`脚本将音频分割为独立的语音片段，尽管过程中可能出现警告信息，但不会影响数据的使用。数据集的标注信息可直接用于对话分析或语音合成模型的训练。引用时需参考ICASSP 2022的相关论文，并遵守GPLv3许可协议，确保仅用于非商业研究或教育目的。

背景与挑战

背景概述

English Conversation Corpus 是一个专注于英语对话的语料库，由清华大学的研究团队于2022年创建，并在ICASSP 2022会议上公开发布。该数据集收集了66个来自YouTube上English Conversation频道的公开视频，旨在为对话式文本到语音合成（Conversational Text-to-Speech Synthesis）提供多模态上下文建模的支持。通过引入图神经网络（Graph Neural Network）等技术，该数据集在提升语音合成的自然度和对话风格方面具有重要影响力，为语音合成领域的研究提供了宝贵的资源。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，对话式语音合成需要高度自然的语音风格和上下文连贯性，这对数据集的标注质量和多样性提出了严格要求。其次，由于视频和音频的版权归属于YouTube频道，数据的使用仅限于非商业研究和教育目的，限制了其广泛应用。此外，数据集的标注仅针对单个视频内的说话者标签，缺乏跨视频的统一标注，这为跨视频的对话分析带来了困难。最后，音频分割过程中产生的警告信息虽不影响整体使用，但仍需进一步优化以提高数据处理的精确性。

常用场景

经典使用场景

English Conversation Corpus 数据集广泛应用于自然语言处理和语音合成领域，特别是在对话系统的开发和优化中。该数据集通过收集来自YouTube的公开视频，提供了丰富的英语对话实例，能够帮助研究人员深入分析日常对话中的语言模式和语调变化。这些数据对于训练和评估对话生成模型、语音识别系统以及情感分析算法具有重要价值。

解决学术问题

该数据集解决了对话系统中常见的学术问题，如如何生成自然流畅的对话、如何捕捉对话中的情感和语调变化等。通过提供多模态的对话数据，研究人员可以更好地理解对话中的上下文关系，从而提升对话生成模型的性能。此外，该数据集还为语音合成技术提供了宝贵的训练数据，帮助改进语音的自然度和表现力。

实际应用

在实际应用中，English Conversation Corpus 数据集被广泛用于开发智能助手、客服机器人和教育软件。通过利用该数据集中的对话实例，开发者能够训练出更加智能和人性化的对话系统，提升用户体验。此外，该数据集还可用于语言学习软件的开发，帮助学习者通过真实的对话场景提高英语听说能力。

数据集最近研究