five

Nexdata/104_Hours_European_Portuguese_Conversational_Speech_Data_by_Mobile_Phone

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/104_Hours_European_Portuguese_Conversational_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈
官方服务:
资源简介:
葡萄牙(葡萄牙)自发对话智能手机语音数据集,基于给定主题的对话,涵盖了20多个领域,并包含文本内容、说话者ID、性别、年龄等属性的转录。数据集收集自124名母语为葡萄牙语的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集格式为16kHz、16位、wav、单声道,记录条件为低背景噪声(室内),使用Android智能手机和iPhone进行录制。数据集的特征包括转录文本、时间戳、说话者ID、性别、噪音、PII(个人身份信息)已删除,单词准确率(WAR)为98%。数据集采用商业许可。

葡萄牙(葡萄牙)自发对话智能手机语音数据集,基于给定主题的对话,涵盖了20多个领域,并包含文本内容、说话者ID、性别、年龄等属性的转录。数据集收集自124名母语为葡萄牙语的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集格式为16kHz、16位、wav、单声道,记录条件为低背景噪声(室内),使用Android智能手机和iPhone进行录制。数据集的特征包括转录文本、时间戳、说话者ID、性别、噪音、PII(个人身份信息)已删除,单词准确率(WAR)为98%。数据集采用商业许可。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Portuguese(Portugal) Spontaneous Dialogue Smartphone speech dataset
  • 许可证:cc-by-nc-nd-4.0
  • 语言:葡萄牙语(葡萄牙)
  • 语言代码:pt-PT

数据集内容

  • 内容类别:基于给定话题的对话
  • 录音条件:低背景噪声(室内)
  • 录音设备:Android智能手机,iPhone
  • 说话者:124名母语说话者,其中44%为男性,56%为女性
  • 国家:葡萄牙(PRT)

数据格式

  • 音频格式:16kHz, 16 bit, wav, 单声道

注释特征

  • 注释内容:转录文本,时间戳,说话者ID,性别,噪声,个人识别信息(PII)已删除
  • 准确率:单词准确率(WAR)98%

数据集用途

  • 模型性能提升:通过多样化的说话者和地理分布,增强模型在真实和复杂任务中的表现
  • 合规性:严格遵守数据保护法规和隐私标准,符合GDPR, CCPA, PIPL
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作