ASR-SECOMICSC: A CHINESE-ENGLISH CODE-MIXING CONVERSATIONAL SPEECH CORPUS
收藏OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ASR-SECOMICSC-_A_CHINESE-ENGLISH_CODE-MIXING_etc
下载链接
链接失效反馈官方服务:
资源简介:
此数据集为中英文混合对话式数据集,包含开发集和测试集。
原始数据集的总市场22.54小时,有效时长9.57小时。
我们在这里只展示了测试集,总时长为10小时。数据集中音频文件(.wav)和人工转录的文本文件(.txt)。
此数据集采集自10名说话人(4名男性和6名女性),年龄在21-25岁之间。总共收集了42段音频,对应42段转录文本。转录文本字正确率超过99%。
This is a mixed Chinese-English conversational dataset that includes a development set and a test set. The raw dataset has a total duration of 22.54 hours and a valid duration of 9.57 hours. Only the test set is presented here, with a total duration of 10 hours. The dataset contains audio files in .wav format and manually transcribed text files in .txt format. This dataset was collected from 10 speakers (4 males and 6 females) aged between 21 and 25 years old. A total of 42 audio segments were collected, corresponding to 42 transcribed texts, and the character accuracy rate of the transcriptions exceeds 99%.
提供机构:
OpenDataLab
创建时间:
2023-01-12
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个中英文混合的对话式语音语料库,包含测试集部分,总时长为10小时,由.wav音频文件和人工转录的.txt文本文件组成。数据采集自10名21-25岁的说话人(4名男性、6名女性),共42段音频,转录正确率超过99%,由Magichub开源社区于2022年7月发布。
以上内容由遇见数据集搜集并总结生成



