five

english-conversation-corpus

收藏
github2023-03-13 更新2024-05-31 收录
下载链接:
https://github.com/thuhcsi/english-conversation-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该语料库收集了66个公开可用的YouTube英语对话频道视频,用于对话式文本到语音合成研究。

This corpus comprises 66 publicly available YouTube English conversational channel videos, collected for research in conversational text-to-speech synthesis.
创建时间:
2021-06-07
原始信息汇总

数据集概述

数据来源

数据内容

  • 视频内容为英语对话。

注释信息

  • 注释文件位于conversations目录下。
  • 说话者标签仅针对单个视频,不跨视频共享。

使用方法

  • 音频和视频下载:使用download-audio.shdownload-video.sh脚本。
  • 音频分割:运行segment.py脚本将音频分割成话语单元。

版权说明

  • 注释和脚本版权属于数据集创建者,遵循GPLv3许可。
  • 音频和视频版权属于YouTube的English Conversation频道,数据集仅用于非商业研究或教育目的。

引用信息

bibtex @inproceedings{li_enhancing_2022, title = {Enhancing {Speaking} {Styles} in {Conversational} {Text}-to-{Speech} {Synthesis} with {Graph}-{Based} {Multi}-{Modal} {Context} {Modeling}}, copyright = {All rights reserved}, doi = {10.1109/ICASSP43922.2022.9747837}, booktitle = {{ICASSP} 2022 - 2022 {IEEE} {International} {Conference} on {Acoustics}, {Speech} and {Signal} {Processing} ({ICASSP})}, author = {Li, Jingbei and Meng, Yi and Li, Chenyi and Wu, Zhiyong and Meng, Helen and Weng, Chao and Su, Dan}, year = {2022}, note = {ISSN: 2379-190X}, keywords = {Speech, Recurrent neural networks, Acoustics, Conferences, Data mining, Signal processing, Speech enhancement, speaking style, conversational text-to-speech synthesis, graph neural network}, pages = {7917--7921}, }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过收集YouTube上English Conversation频道的66个公开视频构建而成。这些视频涵盖了多样化的英语对话场景,旨在为研究提供丰富的口语语料。数据集的标注信息存储在`conversations`目录中,每个视频的说话者标签仅在该视频内共享,未跨视频统一标注。用户可通过提交Pull Request更新标注信息,确保数据集的持续优化与扩展。
使用方法
用户可通过运行`download-audio.sh`和`download-video.sh`脚本下载音频和视频文件。随后,使用`segment.py`脚本将音频分割为独立的语音片段,尽管过程中可能出现警告信息,但不会影响数据的使用。数据集的标注信息可直接用于对话分析或语音合成模型的训练。引用时需参考ICASSP 2022的相关论文,并遵守GPLv3许可协议,确保仅用于非商业研究或教育目的。
背景与挑战
背景概述
English Conversation Corpus 是一个专注于英语对话的语料库,由清华大学的研究团队于2022年创建,并在ICASSP 2022会议上公开发布。该数据集收集了66个来自YouTube上English Conversation频道的公开视频,旨在为对话式文本到语音合成(Conversational Text-to-Speech Synthesis)提供多模态上下文建模的支持。通过引入图神经网络(Graph Neural Network)等技术,该数据集在提升语音合成的自然度和对话风格方面具有重要影响力,为语音合成领域的研究提供了宝贵的资源。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,对话式语音合成需要高度自然的语音风格和上下文连贯性,这对数据集的标注质量和多样性提出了严格要求。其次,由于视频和音频的版权归属于YouTube频道,数据的使用仅限于非商业研究和教育目的,限制了其广泛应用。此外,数据集的标注仅针对单个视频内的说话者标签,缺乏跨视频的统一标注,这为跨视频的对话分析带来了困难。最后,音频分割过程中产生的警告信息虽不影响整体使用,但仍需进一步优化以提高数据处理的精确性。
常用场景
经典使用场景
English Conversation Corpus 数据集广泛应用于自然语言处理和语音合成领域,特别是在对话系统的开发和优化中。该数据集通过收集来自YouTube的公开视频,提供了丰富的英语对话实例,能够帮助研究人员深入分析日常对话中的语言模式和语调变化。这些数据对于训练和评估对话生成模型、语音识别系统以及情感分析算法具有重要价值。
解决学术问题
该数据集解决了对话系统中常见的学术问题,如如何生成自然流畅的对话、如何捕捉对话中的情感和语调变化等。通过提供多模态的对话数据,研究人员可以更好地理解对话中的上下文关系,从而提升对话生成模型的性能。此外,该数据集还为语音合成技术提供了宝贵的训练数据,帮助改进语音的自然度和表现力。
实际应用
在实际应用中,English Conversation Corpus 数据集被广泛用于开发智能助手、客服机器人和教育软件。通过利用该数据集中的对话实例,开发者能够训练出更加智能和人性化的对话系统,提升用户体验。此外,该数据集还可用于语言学习软件的开发,帮助学习者通过真实的对话场景提高英语听说能力。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,对话系统的研究逐渐成为人工智能领域的热点之一。english-conversation-corpus作为一个专注于英语对话的语料库,为研究者提供了丰富的多模态数据资源。该数据集的最新研究方向主要集中在如何利用图神经网络(Graph Neural Network, GNN)进行多模态上下文建模,以提升对话式文本到语音合成(Conversational Text-to-Speech Synthesis)的表现。通过结合音频、视频和文本信息,研究者能够更精准地捕捉对话中的情感、语调和语境变化,从而生成更加自然流畅的语音输出。这一研究方向不仅推动了对话系统的技术进步,也为跨模态学习、情感计算等领域提供了新的研究思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作