CS-Dialogue

Name: CS-Dialogue
Creator: Beijing Academy of Artificial Intelligence
Published: 2025-05-31 14:31:33
License: 暂无描述

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/BAAI/CS-Dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

CS-Dialogue是一个大规模的、公开可用的普通话-英语代码转换语音对话数据集。该数据集解决了现有代码转换语音数据集中存在的主要问题，如数据集规模小、缺乏自然对话和缺失完整对话录音。它为推进代码转换自动语音识别（ASR）和其他相关领域的研究提供了坚实的基础。数据集包含104.02小时的自发对话录音，由200位讲者录制的100对两个人的对话组成。数据集在CC BY-NC-SA 4.0许可下发布，意味着它可用于非商业用途。

CS-Dialogue is a large-scale, publicly available Mandarin-English code-switching speech dialogue dataset. It addresses the core limitations of existing code-switching speech datasets, including small dataset size, lack of natural dialogues, and missing complete conversation recordings. This dataset provides a solid foundation for advancing research in code-switching automatic speech recognition (ASR) and other related domains. It contains 104.02 hours of spontaneous conversational speech recordings, comprising 100 two-person dialogues recorded by 200 total speakers. The dataset is released under the CC BY-NC-SA 4.0 license, which permits non-commercial use.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

在构建CS-Dialogue数据集的过程中，研究团队精心招募了200名具备高水平英语能力的参与者，这些参与者来自中国30个省级行政区，确保了地理多样性。每位参与者均需满足雅思成绩不低于6分或通过英语专业四级考试的语言能力标准。数据采集通过自然对话形式进行，每对参与者围绕2至6个话题展开交流，对话内容涵盖纯中文、中英代码切换及纯英文三种语言模式。所有音频数据均以16kHz采样率的WAV格式保存，并辅以字符级人工转录，同时记录说话人的年龄、性别、地理位置及录音设备等元数据。

使用方法

基于CC BY-NC-SA 4.0许可协议，研究者可通过HuggingFace平台申请访问CS-Dialogue数据集。使用前需完成门控访问流程，提交个人身份及学术机构信息并确认遵守非商业使用条款。数据集按标准语音识别任务需求划分为训练集、开发集和测试集，用户可根据索引文件中的文本映射表（wav.scp）与转录文件（text）快速构建数据处理流水线。对于代码切换研究，建议结合说话人元数据开展多模态分析，但需特别注意遵守伦理规范，禁止任何涉及个人隐私再识别的操作。学术成果发表时须按规定引用相关论文。

背景与挑战

背景概述

在全球化语言交流日益频繁的背景下，多语言混合对话成为自然语言处理领域的重要研究方向。CS-Dialogue数据集由北京智源人工智能研究院等机构于2025年发布，旨在填补语码转换语音数据在规模与自然度上的空白。该数据集收录了200名来自中国30个省份的高英语水平者的自发对话，涵盖104小时的双人互动录音，其核心研究问题聚焦于提升中英语码转换场景下的语音识别鲁棒性。作为目前规模最大的公开中英混合对话语料库，该资源为跨语言语音模型训练提供了关键数据支撑，推动了多模态人机交互研究的发展。

当前挑战

语码转换语音识别面临双语语法结构交错导致的语义歧义问题，以及说话人即兴切换语言时声学特征的突变挑战。在数据构建过程中，需克服对话自然性与语言平衡性的矛盾，通过设计多话题引导策略确保语料真实性；同时，针对200名发音人的地域分布与设备差异，需建立统一的质量控制标准以保障音频一致性。此外，隐私保护要求对原始语音进行严格脱敏处理，这增加了数据标注与合规管理的复杂度。

常用场景

经典使用场景

在语音识别研究领域，CS-Dialogue数据集为探索自然对话中的语码转换现象提供了重要资源。该数据集收录了200名具有良好英语水平的说话者之间的自发对话，涵盖多种话题和语言模式，包括纯中文、中英夹杂及纯英文片段。这种真实场景下的语音数据能够有效支持端到端语音识别模型的训练与评估，特别是在处理双语混合输入时的声学建模和语言建模任务中展现出独特价值。

解决学术问题

该数据集主要解决了语码转换语音识别研究中数据稀缺的核心难题。传统语料库往往规模有限且缺乏自然对话语境，而CS-Dialogue通过提供104小时的真实对话录音，填补了长时程对话语料与多方言背景数据的空白。其精细的说话人属性标注（如地域、年龄、设备信息）为研究社会语言学因素对语码转换模式的影响提供了实证基础，推动了跨语言语音识别技术的理论发展。

实际应用

在实际应用层面，该数据集支撑的语音识别技术可服务于多语言社会的智能交互场景。例如在跨境商务会议、双语教育平台或国际客服系统中，系统需要准确理解中英文混合的语音指令。基于此类数据训练的模型能提升智能助理对自然对话的解析能力，尤其适用于中国英语学习者和双语使用者的语音交互需求，为跨语言通信技术提供底层支持。

数据集最近研究