DailyTalk

arXiv2025-09-30 收录

下载链接：

https://github.com/keonlee9420/dailytalk

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专为对话式文本转语音（TTS）设计的高质量会话语音数据集，包含从DailyDialog数据集中抽取的2,541个对话。与其他现有的TTS数据集不同，DailyTalk数据集包含了上下文信息，这使得它非常适合训练能够感知对话上下文的TTS模型。该数据集规模为2,541个对话，其任务是用以训练TTS模型，并评估合成语音的自然度。

This dataset is a high-quality conversational speech dataset designed specifically for conversational text-to-speech (TTS), containing 2,541 dialogues extracted from the DailyDialog dataset. Unlike other existing TTS datasets, the DailyTalk dataset incorporates contextual information, making it exceptionally suitable for training TTS models capable of perceiving conversational context. With a total of 2,541 dialogues, this dataset is intended for training TTS models and evaluating the naturalness of synthesized speech.

搜集汇总

数据集介绍

构建方式

在语音合成领域，构建具备对话上下文感知能力的数据集是推动技术发展的关键。DailyTalk数据集的构建遵循一套严谨的流水线，旨在从文本对话中生成高质量的对话语音。其构建始于对开源多轮对话数据集DailyDialog的筛选与优化，选取了超过五轮对话的样本以确保足够的上下文长度，并调整了对话参与者的性别以符合预设的一男一女对话场景，同时尽力保留原始数据的情感、言语行为等标注。随后，研究团队聘请了两位具有美国生活经历的流利英语使用者作为配音演员，在专业录音棚中进行录制。录制过程并非简单的脚本朗读，而是要求演员根据情感标签进行真实对话演绎，并在约半数的对话中自然加入填充词（如“uh”、“umm”）。录制完成后，由六名英语流利的标注者对可能存在的语音与文本偏差进行校正，最终形成了包含2,541段对话、总时长约20小时的高质量语音数据集。

特点

DailyTalk数据集的核心特点在于其专为对话式语音合成而设计的对话结构与丰富标注。该数据集继承了源数据集DailyDialog的对话特性，所有对话均为多轮次结构，平均每段对话包含9.36个话轮，为模型学习对话连贯性与上下文依赖提供了充足素材。其标注体系完备，不仅包含对话文本，还保留了情感、言语行为、话题等多维度标签，为可控的、富有表现力的语音合成研究提供了支持。尤为突出的是，数据集中部分对话包含了真实对话中常见的填充词，这增强了语音的自然度和对话的真实感。此外，所有音频均在专业录音棚中录制，确保了高信噪比和一致的音质，为训练高性能神经网络模型奠定了坚实基础。

使用方法

DailyTalk数据集主要用于训练和评估对话上下文感知的语音合成模型。研究者可利用其完整的多轮对话结构和丰富的上下文信息，探索如何将历史对话信息编码并融入语音生成过程。具体而言，该数据集支持训练如论文中所述的基线模型——一种基于FastSpeech2架构并集成对话上下文编码器的非自回归模型，以验证上下文信息对合成语音自然度与连贯性的提升效果。在评估层面，数据集促使研究者超越传统的单句自然度评价，提出了对话级、配对话轮级以及用户-系统模拟等多种新颖的上下文感知评估指标。这些方法旨在衡量合成语音在维持对话流畅性与逻辑关联方面的能力。因此，使用DailyTalk时，应着重设计能够利用对话历史信息的模型架构，并采用与之匹配的、关注整体对话连贯性的评估体系。

背景与挑战

背景概述

在语音合成技术领域，传统文本转语音系统通常基于孤立语句进行训练，缺乏对话上下文信息的建模能力，这限制了其在自然对话场景中的应用。为应对这一挑战，韩国科学技术院的研究团队于2022年推出了DailyTalk数据集，该数据集源自开放域对话数据集DailyDialog，通过专业录音与标注流程构建而成。该数据集包含2,541段高质量对话录音，总时长约20小时，每段对话均保留情感、对话行为及话题等多维度标注信息。DailyTalk的诞生填补了对话式语音合成领域公开数据集的空白，为上下文感知的语音合成模型研究提供了关键资源，推动了人机交互系统中自然对话生成技术的发展。

当前挑战

DailyTalk数据集致力于解决对话式语音合成中的核心挑战：如何让语音合成系统在连续对话中保持上下文连贯性与情感一致性。具体而言，其构建过程面临多重挑战：在数据采集阶段，需确保录音环境无背景噪声干扰，同时要求配音演员在遵循脚本情感标签的基础上进行自然对话演绎，并适时插入填充词以模拟真实对话特征；在后期处理中，需精确校正录音与文本间的对齐偏差，这对标注人员的语言能力提出了较高要求。此外，数据集的规模与多样性平衡亦需审慎考量，既要保证足够长的对话轮次以承载上下文信息，又需维持原始对话的标注完整性，避免因性别调整等处理破坏语义关联。

常用场景

经典使用场景

在语音合成领域，DailyTalk数据集为研究对话式文本到语音转换提供了关键资源。该数据集通过精心设计的对话录音，模拟真实人际交流场景，使得模型能够学习到对话中的上下文依赖关系。其经典应用场景在于训练具备上下文感知能力的TTS系统，这些系统能够根据历史对话信息生成自然连贯的语音输出，从而提升语音助手、虚拟对话伙伴等应用的交互体验。

衍生相关工作

DailyTalk数据集的发布催生了一系列围绕对话式TTS的创新研究。例如，基于FastSpeech2架构的上下文编码器扩展工作，通过引入历史对话信息增强语音生成的连贯性。此外，该数据集启发了对多模态对话情感识别、跨句子韵律建模等方向的探索，相关研究进一步推动了语音合成与自然语言处理领域的交叉融合，为构建更智能的对话系统奠定基础。

数据集最近研究