five

Nexdata/147_Hours_Filipino_Spontaneous_Dialogue_Telephony_speech_dataset

收藏
Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/147_Hours_Filipino_Spontaneous_Dialogue_Telephony_speech_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
菲律宾自发对话电话语音数据集,包含基于给定主题的对话,转录内容包括文本内容、时间戳、说话者ID、性别等属性。数据集收集自264名母语者,地理分布广泛,增强了模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。数据集格式为16kHz 16bit、未压缩的wav文件,单声道。录音条件为低背景噪音(室内),录音设备为电话。数据集的语言为菲律宾语,包含37%的男性和63%的女性说话者。注释特征包括转录文本、时间戳、说话者ID、性别、噪音、PII(个人身份信息)已删除。单词准确率(WAR)为98%。数据集采用商业许可。

菲律宾自发对话电话语音数据集,包含基于给定主题的对话,转录内容包括文本内容、时间戳、说话者ID、性别等属性。数据集收集自264名母语者,地理分布广泛,增强了模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。数据集格式为16kHz 16bit、未压缩的wav文件,单声道。录音条件为低背景噪音(室内),录音设备为电话。数据集的语言为菲律宾语,包含37%的男性和63%的女性说话者。注释特征包括转录文本、时间戳、说话者ID、性别、噪音、PII(个人身份信息)已删除。单词准确率(WAR)为98%。数据集采用商业许可。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Filipino(the Philippines) Spontaneous Dialogue Telephony speech dataset
  • 许可协议: cc-by-nc-nd-4.0
  • 语言: Filipino
  • 国家: the Philippines(PHL)
  • 语言(地区)代码: tl-PH

数据内容

  • 类别: 基于给定话题的对话
  • 录音条件: 低背景噪声(室内)
  • 录音设备: 电话
  • 发言人: 总共264位发言人,其中37%为男性,63%为女性

数据格式

  • 音频格式: 16kHz 16bit, 单声道, 未压缩wav格式

注释特征

  • 注释内容: 转录文本, 时间戳, 发言人ID, 性别, 噪声, 个人识别信息(PII)已删除
  • 准确率: 单词准确率(WAR) 98%

法律合规性

  • 数据保护: 严格遵守数据保护法规和隐私标准,符合GDPR, CCPA, PIPL
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作