Nexdata/mixed_speech_chinese_english
收藏Hugging Face2023-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/mixed_speech_chinese_english
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2000小时的混合中文和英语语音数据,收集自中国26个省份的说话者。内容涵盖通用场景和多种人机交互场景,如音乐、娱乐、旅行、日常生活等。数据集包含超过30,000个英语单词,句子准确率超过97%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。数据集的语言为中文和英文。
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集描述
数据集总结
- 内容: 包含2,000小时的混合中文和英文语音数据。
- 来源: 数据收集自中国26个省份的演讲者,如河南、山西、四川、湖南、福建等。
- 应用场景: 涵盖通用场景和多种人机交互场景,例如音乐、娱乐、旅行、日常生活。
- 词汇量: 覆盖超过30,000个英文单词。
- 准确率: 句子准确率超过97%。
支持的任务和排行榜
- 任务: 自动语音识别(ASR)、音频说话人识别。
语言
- 语言: 中文、英文。
数据集结构
数据实例
- 信息: 待补充。
数据字段
- 信息: 待补充。
数据分割
- 信息: 待补充。
数据集创建
数据选择理由
- 信息: 待补充。
源数据
初始数据收集和标准化
- 信息: 待补充。
源语言生产者
- 信息: 待补充。
注释
注释过程
- 信息: 待补充。
注释者
- 信息: 待补充。
个人和敏感信息
- 信息: 待补充。
使用数据的考虑
数据集的社会影响
- 信息: 待补充。
偏见讨论
- 信息: 待补充。
其他已知限制
- 信息: 待补充。
附加信息
数据集管理者
- 信息: 待补充。
许可信息
- 许可: 商业许可。
引用信息
- 信息: 待补充。
贡献
- 信息: 待补充。



