Nexdata/99_Hours_Pashto_Spontaneous_Dialogue_Smartphone_speech_dataset
收藏Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/99_Hours_Pashto_Spontaneous_Dialogue_Smartphone_speech_dataset
下载链接
链接失效反馈官方服务:
资源简介:
Pashto(阿富汗)自发对话智能手机语音数据集,基于给定主题的对话,覆盖20多个领域,包含文本内容、说话者ID、性别、年龄等属性的转录。数据收集自156名母语者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。数据格式为16kHz、16位、wav、单声道。录音条件为低背景噪音(室内),使用Android智能手机和iPhone进行录制。说话者主要为男性(97%),女性占3%。数据集来自阿富汗,语言为普什图语,语言代码为ps-AF。注释特征包括转录文本、时间戳、说话者ID、性别、噪音、PII(个人身份信息)已删除。单词准确率(WAR)为95%。数据集采用商业许可证。
Pashto(阿富汗)自发对话智能手机语音数据集,基于给定主题的对话,覆盖20多个领域,包含文本内容、说话者ID、性别、年龄等属性的转录。数据收集自156名母语者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。数据格式为16kHz、16位、wav、单声道。录音条件为低背景噪音(室内),使用Android智能手机和iPhone进行录制。说话者主要为男性(97%),女性占3%。数据集来自阿富汗,语言为普什图语,语言代码为ps-AF。注释特征包括转录文本、时间戳、说话者ID、性别、噪音、PII(个人身份信息)已删除。单词准确率(WAR)为95%。数据集采用商业许可证。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 名称: Pashto(Afghanistan) Spontaneous Dialogue Smartphone speech dataset
- 许可: cc-by-nc-nd-4.0
- 语言: Pashto
- 国家: Afghanistan(AFG)
- 语言区域代码: ps-AF
内容描述
- 类别: 基于给定话题的对话
- 收集方式: 从156名本地发言者收集,覆盖20多个领域
- 转录特征: 包含文本内容、发言人ID、性别、年龄等属性
- 录音条件: 低背景噪音(室内)
- 录音设备: Android智能手机, iPhone
- 发言人统计: 总共156名发言人,其中97%为男性,3%为女性
技术规格
- 格式: 16kHz, 16 bit, wav, 单声道
- 标注特征: 转录文本、时间戳、发言人ID、性别、噪音、个人识别信息(PII)已删除
- 准确率: 单词准确率(WAR)95%
法律与隐私
- 严格遵守数据保护法规和隐私标准,符合GDPR、CCPA、PIPL要求



