TALCS 语料库

Name: TALCS 语料库
Creator: 好未来教育集团
Published: 2022-06-27 17:30:25
License: 暂无描述

arXiv2022-06-27 更新2024-06-21 收录

下载链接：

https://ai.100tal.com/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TALCS 语料库是由好未来教育集团创建的一个开放源代码的中英混合语音识别语料库，包含约587小时的16kHz采样语音数据。该数据集来源于真实的在线一对一英语教学场景，涵盖了大量的中英混合语音样本，适用于训练和评估混合语言语音识别系统。TALCS 语料库分为训练集、开发集和测试集，旨在解决中英混合语音识别中的数据稀缺问题，并推动混合语言语音识别技术的发展。

TALCS Corpus is an open-source Chinese-English mixed speech recognition corpus created by TAL Education Group, containing approximately 587 hours of 16kHz sampled speech data. This dataset is sourced from real online one-to-one English teaching scenarios, covering a large number of Chinese-English mixed speech samples, and is suitable for training and evaluating mixed-language speech recognition systems. The TALCS Corpus is divided into training, development and test sets, aiming to address the data scarcity problem in Chinese-English mixed speech recognition and promote the development of mixed-language speech recognition technologies.

提供机构：

好未来教育集团

创建时间：

2022-06-27

搜集汇总

数据集介绍

构建方式

TALCS语料库的构建源于TAL教育集团的真实在线一对一英语教学场景，该场景中教师与学生主要使用普通话进行对话，并伴有标准的英语发音。语料库包含大约587小时的语音数据，采样率为16kHz。录音过程中，使用个人计算机麦克风记录教师和学生的语音，确保了语料库的真实性和自然性。录音环境包括宿舍、家庭和教室等，背景噪音相对较低。语料库的转录过程经过数据标注和质量检查两个阶段，由通过CET-4考试的数据标注员进行标注，并经过质量检查员进行20%的抽样检查，以确保转录质量。

特点

TALCS语料库是全球最大的公开的中文-英文代码转换自动语音识别(ASR)数据集，包含超过100位教师的语音数据，总计约587小时的录音。语料库中的语音数据涵盖了中学英语的语法、阅读理解和写作等知识点，包含370K个句子，长度从0.3秒到30秒不等。语料库还包含了大量的句子内混合和句子间混合的语音数据，能够很好地匹配日常生活中的代码转换现象，有利于训练代码转换ASR模型，促进代码转换ASR的发展。

使用方法

TALCS语料库分为训练集、开发集和测试集三个部分，方便用户进行自动语音识别实验。用户可以使用TALCS语料库在ESPnet和Wenet两个流行的语音识别工具包中进行代码转换ASR实验，以评估和训练代码转换ASR模型。实验结果表明，TALCS语料库的转录质量高，是一个具有挑战性的数据集，有利于代码转换ASR的研究和应用。

背景与挑战

背景概述

在多语言社会中，代码切换（Code-Switching, CS）现象普遍存在。例如，在东南亚的一些国家，如马来西亚和新加坡，汉语和英语经常在对话中混合使用。为了应对这种代码切换现象，开发能够识别代码切换语音的自动语音识别（ASR）系统显得尤为重要。然而，由于缺乏包含代码切换的音频和文本资源，汉语-英语代码切换语音识别（CS-ASR）通常被认为是一个低资源任务。为了缓解CS-ASR技术中开源数据的短缺问题，并促进其发展，TAL教育集团推出了TALCS语料库，这是一个包含超过580小时的单声道汉语-英语代码切换语音语料库，旨在用于各种代码切换语音处理任务。TALCS语料库来自TAL教育集团的在线一对一英语教学场景，其中教师和学生来自中国不同的地区。语料库包括370K个句子，长度从0.3秒到30秒不等。TALCS语料库被分为三个部分：训练集、开发集和测试集。使用TALCS语料库，在两个流行的语音识别工具包中进行CS-ASR实验，包括ESPnet和Wenet，并提供了一个可行的代码切换语音识别基线系统。实验结果表明，TALCS语料库具有高质量的转录，并且是CS-ASR的一个具有挑战性的数据集。

当前挑战

TALCS语料库的构建和应用面临着一些挑战。首先，代码切换现象的复杂性使得数据标注过程需要更高的要求。其次，由于TALCS语料库来自真实的在线一对一教学场景，因此其中可能包含一些敏感的政治问题、用户隐私、色情、暴力等内容，需要进行适当的过滤和清理。此外，由于TALCS语料库的规模较大，因此其存储、处理和分析也需要相应的技术和资源支持。最后，尽管TALCS语料库提供了一个可行的基线系统，但仍然需要进一步研究和改进，以提高CS-ASR系统的性能和鲁棒性。

常用场景

经典使用场景

TALCS语料库作为目前世界上最大的开源普通话-英语代码转换自动语音识别（CS-ASR）数据集，其经典使用场景主要集中在对代码转换语音识别系统的训练与评估。该语料库来源于真实的在线一对一英语教学场景，包含约587小时的语音数据，采样率为16kHz。TALCS语料库的发布，为广大研究者和开发者提供了一个宝贵的资源，有助于推动代码转换语音识别技术的发展。

解决学术问题

TALCS语料库解决了代码转换语音识别研究中数据匮乏的问题。在学术和工业界，关于代码转换的语料库都相对较少，这限制了代码转换语音识别技术的进步。TALCS语料库的发布，为研究者提供了大量的代码转换语音数据，有助于提高代码转换语音识别系统的性能。此外，TALCS语料库还涵盖了两种代码转换现象：句子内混合和句子间混合，这有助于研究者更好地理解代码转换现象，并开发出更有效的代码转换语音识别系统。

衍生相关工作

TALCS语料库的发布，衍生了大量的相关工作，如代码转换语音识别系统的评估、代码转换语音识别模型的优化等。例如，研究者可以利用TALCS语料库进行代码转换语音识别系统的评估，比较不同系统的性能，找出存在的问题并加以改进。同时，研究者还可以利用TALCS语料库进行代码转换语音识别模型的优化，提高模型的准确率和鲁棒性。这些相关工作有助于推动代码转换语音识别技术的发展，并为实际应用提供更好的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集