five

全双工对话数据集

收藏
arXiv2025-09-04 更新2025-09-06 收录
下载链接:
https://magichub.com/datasets/multi-stream-spontaneous-conversation-training-datasets chinese/2https://magichub.com/datasets/multi-stream-spontaneous-conversation-training-datasets english/
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
全双工对话数据集是一组开源的双轨对话语音数据集,旨在提升合成语音的自然性和交互性。数据集包含中文和英文两个子集,共计35个对话,总时长约15小时,由14位母语为中文和英文的说话者独立录制。数据集捕捉了真实的对话动态,包括频繁的交叉、反馈、笑声等非言语发声,并提供了高质量的音频轨道。数据集可用于训练语音合成系统,提高合成语音的自然度和交互性。数据集已在ScienceDB平台公开发布,以促进对话语音研究的进一步发展。

This full-duplex dialogue dataset is an open-source dual-track conversational speech dataset designed to improve the naturalness and interactivity of synthesized speech. It includes two subsets in Chinese and English, totaling 35 dialogues with an approximate total duration of 15 hours, and was independently recorded by 14 native speakers of Chinese and English. The dataset captures realistic conversational dynamics, including frequent overlaps, backchannels, laughter and other non-verbal vocalizations, and provides high-quality audio tracks. It can be used to train speech synthesis systems to enhance the naturalness and interactivity of synthesized speech. The dataset has been publicly released on the ScienceDB platform to promote further development of conversational speech research.
提供机构:
北京建筑大学
创建时间:
2025-09-04
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成研究领域,全双工对话数据集的构建采用了双轨录音技术,通过隔离环境下的自然对话采集实现。研究团队招募具有社交熟悉度的母语者配对,在独立房间中使用移动设备进行自主话题讨论,确保对话的自然性与真实性。音频以16kHz采样率的双单声道轨道分别记录每位说话者,并通过人工转录与精细标注流程,完整保留了重叠语音、副语言特征及互动行为的时序信息。
使用方法
该数据集主要用于提升对话式文本转语音系统的自然度与交互真实性。研究者可基于双轨音频与分层标注,训练或微调全双工语音合成模型,尤其适用于模拟重叠语音与动态对话节奏。具体应用中,需按说话人分离音频轨道,结合时序对齐的转录文件进行模型训练;支持跨语言对比研究,并可结合提供的微调代码实现端到端的合成效果优化,显著改善合成语音的韵律自然度与交互流畅性。
背景与挑战
背景概述
全双工对话数据集由北京建筑大学与Magic Data于2025年联合发布,旨在解决传统语音合成系统在自然对话交互中的局限性。该数据集聚焦于全双工对话场景,捕捉包括语音重叠、即时插话和副语言特征等真实交互现象,填补了现有语音数据在动态对话建模方面的空白。其双语架构(中文10小时、英文5小时)和高质量双轨录音设计,为提升对话式TTS系统的自然度与交互性提供了关键数据支撑,推动了语音合成技术向人性化对话方向的演进。
当前挑战
该数据集核心挑战在于如何精准建模真实对话中的并发语音事件(如重叠发言、抢话和即时反馈),传统单轨录音无法分离混合音频导致训练数据失真。构建过程中需克服双轨同步校准、说话人身份标注一致性以及副语言特征(如笑声、语气词)的标准化标注难题,同时需确保对话话题的多样性和说话人社交关系的自然性,以避免数据偏差影响模型泛化能力。
常用场景
经典使用场景
在语音合成与对话系统研究中,全双工对话数据集被广泛应用于训练能够处理自然对话动态的模型。该数据集通过双轨录音技术捕捉真实对话中的重叠语音、打断和反馈现象,为研究者提供了高质量的多说话人交互数据。其经典使用场景包括改进对话式文本到语音(TTS)系统的自然性和交互性,特别是在模拟人类对话中的即时响应和并发语音行为方面。
解决学术问题
该数据集解决了传统语音数据集中缺乏自然对话动态的问题,如语音重叠、打断和自发反馈的缺失。通过提供精确的时间戳标注和双轨音频,它支持对全双工交互模式的深入研究,提升了合成语音的自然度和对话系统的流畅性。其意义在于填补了对话语音合成领域的数据空白,推动了更真实的人机语音交互技术的发展。
实际应用
在实际应用中,该数据集被用于开发智能助手、客服系统和交互式语音设备,这些系统需要处理真实的对话场景,如用户打断、即时反馈和自然轮转。通过基于该数据训练的模型,系统能够生成更自然、更具交互性的语音响应,提升用户体验,适用于教育、娱乐和商业对话平台。
数据集最近研究
最新研究方向
在语音合成与人机交互领域,全双工对话数据集正推动着自然语音合成技术的革新。该数据集通过双轨录音技术捕捉真实对话中的重叠语音、即时插话和非语言发声等动态特征,为训练具备并发听说能力的智能系统提供了关键数据支撑。当前研究聚焦于利用此类数据提升对话式TTS模型的交互自然度,尤其在处理语音重叠与实时响应时序优化方面取得显著进展。相关技术已应用于虚拟助手、社交机器人等热点场景,显著改善了人机对话的流畅性与真实感,为构建下一代自然交互系统奠定了数据基础。
相关研究论文
  • 1
    Open-Source Full-Duplex Conversational Datasets for Natural and Interactive Speech Synthesis北京建筑大学 · 2025年
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作