Nexdata/Cantonese_Dialect_Speech_Data_by_Mobile_Phone
收藏Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/Cantonese_Dialect_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集了来自广东省的4,888名说话者的语音数据,记录了50万条常用口语句子,包括高频词和日常表达。录音在安静的室内环境中进行,录音设备为主流的Android手机和iPhone。平均重复次数为1.5次,平均句子长度为12.5个单词。该数据集可用于自动语音识别(ASR)和音频说话人识别任务。语言为粤语。
This dataset collects speech data from 4,888 speakers in Guangdong Province, containing 500,000 commonly used colloquial sentences covering high-frequency words and daily expressions. All recordings were conducted in quiet indoor environments, using mainstream Android smartphones and iPhones as recording devices. The average repetition count per sentence is 1.5, and the average sentence length is 12.5 words. This dataset is applicable to automatic speech recognition (ASR) and audio speaker recognition tasks, with all speech data in Cantonese.
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集名称
Nexdata/Cantonese_Dialect_Speech_Data_by_Mobile_Phone
数据集描述
数据集总结
- 收集来源:广东省的4,888名说话者。
- 录音环境:安静的室内环境。
- 录音内容:500,000个常用口语句子,包括微博高频词汇和日常用语。
- 重复次数:平均1.5次。
- 句子长度:平均12.5个词。
- 录音设备:主流的Android手机和iPhone。
支持的任务和排行榜
- 任务:自动语音识别(ASR)、音频说话人识别。
语言
- 语言:粤语。
数据集结构
数据实例
- 信息:待补充。
数据字段
- 信息:待补充。
数据分割
- 信息:待补充。
数据集创建
数据选择理由
- 信息:待补充。
源数据
初始数据收集和标准化
- 信息:待补充。
源语言生产者
- 信息:待补充。
注释
注释过程
- 信息:待补充。
注释者
- 信息:待补充。
个人和敏感信息
- 信息:待补充。
使用数据的考虑
数据集的社会影响
- 信息:待补充。
偏见的讨论
- 信息:待补充。
其他已知限制
- 信息:待补充。
附加信息
数据集管理者
- 信息:待补充。
许可信息
- 许可类型:商业许可。
- 许可链接:商业许可链接
引用信息
- 信息:待补充。
贡献
- 信息:待补充。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



