CS-Dialogue

Name: CS-Dialogue
Creator: 南开大学计算机科学与技术学院，北京人工智能研究院
Published: 2025-02-26 15:59:55
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

http://arxiv.org/abs/2502.18913v1

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

CS-Dialogue是一个包含104小时自发汉语-英语代码转换对话的大型语料库，由200位讲者参与。该数据集由南开大学计算机科学与技术学院和北京人工智能研究院创建，提供了完整的对话录音和转录，捕捉了连续话语中的自然代码转换模式。数据集覆盖了个人话题、娱乐、技术、教育、职业、哲学和体育等七个日常话题，对话以普通话开始，然后是汉语和英语的代码转换，最后以英语结束。

CS-Dialogue is a large-scale corpus containing 104 hours of spontaneous Chinese-English code-switching dialogues involving 200 speakers. Developed by the College of Computer Science and Technology at Nankai University and the Beijing Institute of Artificial Intelligence, this dataset provides complete dialogue recordings and transcripts, capturing natural code-switching patterns in continuous utterances. It covers seven daily topics including personal topics, entertainment, technology, education, career, philosophy, and sports. The dialogues start in Mandarin, then feature code-switching between Chinese and English, and finally conclude in English.

提供机构：

南开大学计算机科学与技术学院，北京人工智能研究院

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

CS-Dialogue数据集的构建采用了严格的数据采集和标注流程。首先，从200位以中文为母语且英语流利的参与者中收集了104小时的对话录音。参与者被要求在安静的环境中，使用智能手机麦克风进行录音。对话内容涵盖了七个日常话题，包括个人话题、娱乐、技术、教育、工作、哲学和体育。每个对话包括三个阶段：中文、中英混合和英文，每个阶段约20分钟。录音后，所有音频文件都经过手动转录和非语言事件的详细标注，确保了数据的高质量和完整性。

特点

CS-Dialogue数据集的特点在于其规模大、对话自然、且提供了完整的对话录音和转录。它包含了104小时的对话录音，涉及200位说话者，涵盖了七个日常话题。与现有数据集相比，CS-Dialogue提供了完整的对话录音和转录，捕捉了连续话语中的自然代码切换模式，为研究代码切换ASR提供了更全面的资源。

使用方法

CS-Dialogue数据集的使用方法包括数据预处理、模型训练和评估。首先，需要对数据进行预处理，包括音频格式转换、静音检测和分割等。然后，可以使用多种ASR模型，如Transformer、Conformer和Branchformer，在数据集上进行训练和评估。最后，可以使用数据集上的评估指标，如混合错误率（MER）、单词错误率（WER）和字符错误率（CER），来评估模型在代码切换ASR任务上的性能。

背景与挑战

背景概述

在多语言环境中，语言切换（code-switching）是一种常见的语言现象，尤其在语音对话中。然而，现有的普通话-英语语言切换语音数据集在规模、自发性以及完整对话录音和转录方面存在局限性，这限制了自动语音识别（ASR）系统在现实世界对话场景中的发展。为了解决这些问题，南开大学计算机科学与技术学院和北京人工智能研究院的研究人员共同创建了一个名为CS-Dialogue的大规模普通话-英语语言切换语音数据集。CS-Dialogue包含了104小时的对话录音，由200名演讲者进行，并且提供了完整的对话录音和转录，以捕捉自然语言切换模式。该数据集的创建填补了现有数据集在规模、可用性和注释完整性方面的空白，为研究语言切换ASR提供了宝贵资源。

当前挑战

尽管CS-Dialogue数据集在语言切换ASR领域取得了重大进展，但仍面临一些挑战。首先，数据集目前只关注普通话和英语的语言切换，未来需要扩展到其他语言组合以增强模型的泛化能力。其次，所有参与者都是母语为中文且英语流利的人，没有包括母语为英语且切换到中文的人，这代表了双语对话的另一个重要方面。第三，尽管对话是自发的，但它们仍然是在受控环境中录制的，可能无法完全反映现实世界的声学多样性。未来的工作可以探索数据增强技术来模拟更广泛的声学条件。

常用场景

经典使用场景

CS-Dialogue数据集为语音识别领域提供了一个丰富的资源，特别适用于研究和开发能够处理自然语言中语言切换的自动语音识别(ASR)系统。该数据集包含了大量的自发对话录音，涵盖了多种日常话题，为研究人员提供了探索代码切换现象的机会，并评估了不同ASR模型在处理这种复杂语言现象时的性能。

实际应用

CS-Dialogue数据集的实际应用场景包括但不限于开发能够处理代码切换的语音识别系统，这些系统可以应用于多语言环境中的语音助手、客服系统、语音到文本转换工具等。该数据集还可以用于开发能够识别和翻译代码切换文本的语言处理工具，以及用于多语言语音识别的机器学习模型。

衍生相关工作

CS-Dialogue数据集的发布为代码切换ASR研究开辟了新的途径，衍生出了许多相关的工作。研究人员使用该数据集来评估和改进现有的ASR模型，并探索新的模型架构和训练技术。此外，该数据集还被用于研究代码切换的语言现象，以及开发能够识别和翻译代码切换文本的语言处理工具。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集