Nexdata/354_Hours_Dari_Spontaneous_Dialogue_Smartphone_speech_dataset
收藏Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/354_Hours_Dari_Spontaneous_Dialogue_Smartphone_speech_dataset
下载链接
链接失效反馈官方服务:
资源简介:
Dari(阿富汗)自发对话智能手机语音数据集包含基于给定主题的对话,覆盖20多个领域,并提供了文本内容、说话者ID、性别、年龄等属性的转录。数据集收集自480名母语者,地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益的维护。数据格式为16k Hz、16位、wav、单声道。录音条件为低背景噪音(室内),录音设备包括Android智能手机和iPhone。说话者中83%为男性,17%为女性。数据集的语言为Dari,标注特征包括转录文本、时间戳、说话者ID和性别。单词准确率(WAR)为95%。数据集采用商业许可。
Dari(阿富汗)自发对话智能手机语音数据集包含基于给定主题的对话,覆盖20多个领域,并提供了文本内容、说话者ID、性别、年龄等属性的转录。数据集收集自480名母语者,地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益的维护。数据格式为16k Hz、16位、wav、单声道。录音条件为低背景噪音(室内),录音设备包括Android智能手机和iPhone。说话者中83%为男性,17%为女性。数据集的语言为Dari,标注特征包括转录文本、时间戳、说话者ID和性别。单词准确率(WAR)为95%。数据集采用商业许可。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 名称: Dari(Afghanistan) Spontaneous Dialogue Smartphone speech dataset
- 许可证: cc-by-nc-nd-4.0
- 语言: Dari
- 国家: Afghanistan(AFG)
- 录音设备: Android智能手机, iPhone
- 录音条件: 低背景噪音(室内)
- 采样率: 16kHz
- 位深度: 16位
- 通道: 单声道
内容描述
- 类别: 基于给定话题的对话
- 内容: 包含文本转录、时间戳、说话人ID、性别等标注信息
- 说话人: 总计480名母语说话人, 其中83%为男性, 17%为女性
- 领域覆盖: 超过20个领域
质量与合规性
- 准确率: 单词准确率(WAR)为95%
- 合规性: 遵守GDPR、CCPA、PIPL等数据保护法规和隐私标准
- 质量测试: 经过多家AI公司的质量测试
使用许可
- 商业许可: 支持商业使用



