five

Nexdata/175_Hours_Thai_Spontaneous_Dialogue_Smartphone_speech_dataset

收藏
Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/175_Hours_Thai_Spontaneous_Dialogue_Smartphone_speech_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
泰国自发对话智能手机语音数据集,基于给定主题的对话,涵盖20多个领域,包含文本内容、说话者ID、性别、年龄等属性的转录。数据集收集自322名母语者,地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益的维护。数据集格式为16kHz、16bit、未压缩的wav单声道文件,记录条件为低背景噪音的室内环境,使用Android智能手机和iPhone进行录制。数据集包含332名说话者,其中40%为男性,60%为女性。数据集的注释特征包括转录文本、时间戳、说话者ID和性别,单词准确率为97%。

泰国自发对话智能手机语音数据集,基于给定主题的对话,涵盖20多个领域,包含文本内容、说话者ID、性别、年龄等属性的转录。数据集收集自322名母语者,地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益的维护。数据集格式为16kHz、16bit、未压缩的wav单声道文件,记录条件为低背景噪音的室内环境,使用Android智能手机和iPhone进行录制。数据集包含332名说话者,其中40%为男性,60%为女性。数据集的注释特征包括转录文本、时间戳、说话者ID和性别,单词准确率为97%。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Thai(Thailand) Spontaneous Dialogue Smartphone speech dataset
  • 数据集内容:基于给定话题的对话数据,涵盖20多个领域。
  • 录音条件:低背景噪声(室内)
  • 录音设备:Android智能手机,iPhone
  • 语言:泰语(th-TH)

数据集特征

  • 格式:16kHz, 16bit, 单声道,未压缩wav格式
  • 内容分类:基于给定话题的对话
  • 发言人信息
    • 总数:332人
    • 性别比例:40%男性,60%女性
    • 年龄、性别、ID等属性
  • 注释特征:转录文本、时间戳、发言人ID、性别
  • 准确率:单词准确率(WAR)97%

法律与许可

  • 遵守法规:严格遵守数据保护法规和隐私标准,符合GDPR, CCPA, PIPL
  • 许可类型:商业许可
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作