RealTalk-CN
收藏Hugging Face2025-09-11 更新2025-09-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/RealTalk-CN
下载链接
链接失效反馈官方服务:
资源简介:
RealTalk-CN是一个大规模、跨领域的中文任务导向对话(TOD)数据集,包含语音和文本两种模态。该数据集由真实的人与人之间的对话构成,旨在推进基于语音的大型语言模型(Speech LLMs)的研究。它突破了现有TOD数据集的局限,如缺乏真实语音、自发不流畅性和跨模态交互场景。数据集包含约150小时的验证过的真实对话音频,共有5400个多轮对话,超过6万条发言。数据集在CC BY-NC-SA 4.0许可证下发布,可供非商业研究免费使用。
RealTalk-CN is a large-scale, cross-domain Chinese task-oriented dialogue (TOD) dataset featuring both speech and text modalities. Composed of authentic human-to-human conversations, it is designed to advance research on speech-based large language models (Speech LLMs). It addresses critical limitations of existing TOD datasets, including the lack of authentic speech, spontaneous disfluencies, and cross-modal interaction scenarios. The dataset contains approximately 150 hours of verified real conversational audio, totaling 5,400 multi-turn dialogues and over 60,000 utterances. It is released under the CC BY-NC-SA 4.0 license and is freely accessible for non-commercial research purposes.
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2025-09-11
原始信息汇总
RealTalk-CN 数据集概述
数据集基本信息
- 许可证:CC BY-NC-SA 4.0
- 任务类别:音频到音频
- 语言:中文
- 规模:10K < n < 100K
数据集组成
- 总时长:约150小时经过验证的真实人-人对话音频
- 对话规模:5,400个多轮对话,超过60,000条话语
- 说话人:113人,性别比例平衡,年龄18-50岁,覆盖中国主要方言区
- 对话领域:58个任务导向领域(如餐饮、交通、购物、医疗、金融),包括55种意图和115个槽位
- 音频规格:16kHz采样率,WAV格式,通过专业和移动设备录制
- 转录与标注:
- 字符级手动转录,保留口语特征
- 标注4类不流畅现象(延长、重复、自我修正、犹豫)
- 包括转录文本、槽值、意图和说话人元数据(性别、年龄、地区等)
数据集特点
- 自然口语化:包含真实任务导向对话中的口语特征和不流畅现象,克服“朗读语音”语料库的局限性。
- 双模态真实交互:提供配对的语音-文本标注,引入跨模态聊天任务,支持语音和文本之间的动态切换,更接近真实人机交互。
- 完整对话和多领域覆盖:平均每对话12轮,覆盖58个现实领域,支持单领域和跨领域对话建模。
- 多样化说话人:覆盖中国主要地区,性别和年龄平衡,支持口音、方言和人口统计差异影响研究。
- 高质量标注和严格质量控制:多轮手动验证,详细时间戳和槽位标注确保可靠性和研究价值。
数据集优势
- 首个大规模中文语音-文本任务导向对话语料库,填补中文口语对话基准数据集的空白。
- 提供不流畅标注,支持语音任务导向对话系统的鲁棒性评估和纠错研究。
- 支持语音识别、语音合成、意图识别、槽填充、对话管理和跨模态研究。
- 作为中文任务导向对话任务中语音大语言模型的基准,推动先进语音交互系统的发展。
相关资源
- GitHub仓库:https://github.com/Summer-Enzhi/RealTalk
- Arxiv论文:https://arxiv.org/abs/2508.10015
搜集汇总
数据集介绍

构建方式
RealTalk-CN数据集通过精心设计的真实人机对话场景构建,采集了来自113位不同方言背景的说话者共计约150小时的多轮对话音频。数据覆盖58个任务型领域,包括餐饮、交通、医疗等,每条语音均经过人工字符级转录,并标注了四种不流利现象及语义槽位与意图标签,所有数据均通过多轮质量验证确保可靠性。
特点
该数据集突出表现为首个大规模中文语音-文本双模态对话语料库,深度融合真实口语特征如延伸、重复与自我修正等不流利现象。其多领域覆盖性与说话者多样性支持方言、口音及人口统计学研究,而完整的对话结构与跨模态交互任务设计进一步增强了其在真实人机交互场景中的适用性。
使用方法
RealTalk-CN适用于语音识别、语音合成、对话管理等任务的模型训练与评估,尤其为语音大语言模型提供跨模态学习基准。研究者可依据其提供的语音-文本配对数据、说话人元数据及不流利标注,开展鲁棒性分析、多模态对话生成及口语理解相关实验,推动下一代语音交互系统的发展。
背景与挑战
背景概述
在语音与自然语言处理交叉领域的发展进程中,中文多模态对话数据资源的稀缺长期制约着相关模型的深入探索与性能评估。RealTalk-CN数据集由研究团队于2024年构建并公开发布,作为首个大规模、多领域、双模态(语音-文本)中文任务型对话语料库,其数据全部源自真实人际对话场景,覆盖58个现实领域、包含逾60,000条话语和150小时音频。该数据集不仅填补了中文语音对话建模基准数据的空白,更为语音大语言模型(Speech LLMs)的训练与评估提供了关键资源,显著推动了语音交互系统在鲁棒性、泛化能力与跨模态理解方面的研究进展。
当前挑战
RealTalk-CN所应对的核心领域挑战在于解决传统文本型任务对话(TOD)数据缺乏真实语音信号、自然口语现象(如拖音、重复、自我修正等)以及跨模态动态交互的问题。在构建过程中,团队面临多重技术挑战:需在保持语音自然性和语料规模的同时,实现高精度的手工转写与多标签标注;需涵盖多样化说话人背景与方言变体,以保障数据代表性与模型泛化能力;还需设计严格的质控流程,处理多轮对话中的语义连贯性与模态对齐问题,确保双模态数据的一致性与可用性。
常用场景
经典使用场景
在语音对话系统研究中,RealTalk-CN数据集被广泛应用于训练和评估端到端的语音文本双模态对话模型。研究者利用其真实的人类对话录音和精细的文本标注,构建能够理解和生成自然口语的智能系统。该数据集支持多轮对话建模、语音识别与合成的联合优化,以及跨模态交互的仿真实验,为语音大语言模型提供了理想的训练环境。
衍生相关工作
基于RealTalk-CN衍生的经典工作包括跨模态对话状态跟踪模型、语音不流利现象检测算法以及端到端语音对话生成系统。研究者开发了融合语音和文本双模态信息的神经网络架构,提出了针对中文口语特性的语义解析方法。这些工作显著推动了语音大语言模型在任务型对话中的性能边界,并催生了新一代多模态人机交互框架的创新。
数据集最近研究
最新研究方向
在语音与文本融合的对话系统研究中,RealTalk-CN数据集正推动中文语音大模型(Speech LLMs)在任务型对话中的前沿探索。其跨模态交互特性支持动态语音-文本切换机制,为多模态对话理解与生成提供了真实场景下的基准数据。该数据集引入的自发性不流利标注(如重复、修正、犹豫等)成为语音系统鲁棒性优化与纠错策略研究的热点,尤其在医疗、金融等高要求领域的应用中备受关注。其多地域发音人覆盖进一步推动方言适应性及个性化语音交互的研究,为构建更自然、强泛化能力的中文语音对话系统奠定基础。
以上内容由遇见数据集搜集并总结生成



