Nexdata/88_Hours_Mexican_Spanish_Conversational_Speech_Data_by_Telephone
收藏Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/88_Hours_Mexican_Spanish_Conversational_Speech_Data_by_Telephone
下载链接
链接失效反馈官方服务:
资源简介:
这是一个西班牙语(墨西哥)自发性对话电话语音数据集,收集了基于给定主题的对话。数据集包括文本内容、时间戳、说话者ID、性别等属性的转录。数据集收集自122名母语为西班牙语的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
这是一个西班牙语(墨西哥)自发性对话电话语音数据集,收集了基于给定主题的对话。数据集包括文本内容、时间戳、说话者ID、性别等属性的转录。数据集收集自122名母语为西班牙语的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 名称: Spanish(Mexico) Spontaneous Dialogue Telephony speech dataset
- 许可证: cc-by-nc-nd-4.0
- 语言: 西班牙语(墨西哥)
- 国家: 墨西哥
- 语言代码: es-MX
数据内容
- 类别: 基于给定话题的对话
- 记录条件: 低背景噪声(室内)
- 记录设备: 电话
- 发言人数量: 122人
- 性别分布: 53% 男性, 47% 女性
数据格式
- 采样率: 8kHz
- 位深度: 8bit
- 编码: a-law/u-law pcm
- 声道: 单声道
注释特征
- 内容: 转录文本, 时间戳, 发言人ID, 性别, 噪声
- 准确率: 单词准确率(WAR) 98%
法律合规性
- 遵守数据保护法规和隐私标准,符合GDPR, CCPA, PIPL要求。



