Nexdata/176_Hours_Tibetan_Spontaneous_Speech_Data
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/176_Hours_Tibetan_Spontaneous_Speech_Data
下载链接
链接失效反馈官方服务:
资源简介:
西藏(中国)真实世界对话和独白语音数据集,涵盖了对话、访谈等多种形式,反映了真实世界的互动。数据集包括文本内容、说话者ID、性别等属性的转录。数据集从广泛且多样化的说话者中收集,地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过多家AI公司的测试,严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。
西藏(中国)真实世界对话和独白语音数据集,涵盖了对话、访谈等多种形式,反映了真实世界的互动。数据集包括文本内容、说话者ID、性别等属性的转录。数据集从广泛且多样化的说话者中收集,地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过多家AI公司的测试,严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集描述
- 名称: Tibetan(China) Real-world Casual Conversation and Monologue speech dataset
- 内容: 包含对话、访谈等多种真实场景的语音数据。
- 特点: 数据集由多样化的说话者收集,覆盖广泛的地理区域,有助于提升模型在真实复杂任务中的性能。
- 质量保证: 经过多家AI公司的质量测试。
- 合规性: 严格遵守数据保护法规和隐私标准,符合GDPR、CCPA、PIPL等法规要求。
数据集规格
- 格式: 16kHz, 16 bit, wav格式,单声道。
- 内容类别: 包括对话、访谈等。
- 录制环境: 低背景噪音。
- 国家: 中国(CHN)。
- 语言(地区)代码: bo-CN。
- 语言: 藏语。
- 标注特征: 转录文本、时间戳、说话者ID、性别。
- 准确率: 词准确率(WAR)为97%。
许可信息
- 许可证: 商业许可证。



