five

Nexdata/310_Hours_Turkish_Scripted_Monologue_Smartphone_Speech_Dataset

收藏
Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/310_Hours_Turkish_Scripted_Monologue_Smartphone_Speech_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
土耳其脚本独白智能手机语音数据集是基于给定脚本收集的独白,并转录为文本内容。该数据集来自土耳其的223名不同背景的说话者,地理分布广泛,旨在提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。数据格式为16kHz、16bit、未压缩的wav文件,单声道。录音条件为安静的室内环境,低背景噪音,无回声。录音设备包括Android智能手机和iPhone。说话者包括223名母语为土耳其语的人,其中54%为男性,46%为女性。数据集的语言为土耳其语,标注特征为转录文本,单词准确率为95%。

土耳其脚本独白智能手机语音数据集是基于给定脚本收集的独白,并转录为文本内容。该数据集来自土耳其的223名不同背景的说话者,地理分布广泛,旨在提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益。数据格式为16kHz、16bit、未压缩的wav文件,单声道。录音条件为安静的室内环境,低背景噪音,无回声。录音设备包括Android智能手机和iPhone。说话者包括223名母语为土耳其语的人,其中54%为男性,46%为女性。数据集的语言为土耳其语,标注特征为转录文本,单词准确率为95%。
提供机构:
Nexdata
原始信息汇总

数据集描述

土耳其剧本独白智能手机语音数据集,基于给定剧本收集的独白语音,并附有文本转录内容。该数据集由来自土耳其的广泛多样化的223名说话人收集,地理分布广泛,有助于提升模型在真实复杂任务中的性能。经过多家AI公司的质量测试。严格遵守数据保护法规和隐私标准,确保在整个数据收集、存储和使用过程中维护用户隐私和法律权利,所有数据集均符合GDPR、CCPA、PIPL标准。

数据格式

16kHz,16位,未压缩的wav格式,单声道。

录音条件

安静的室内环境,低背景噪音,无回声。

录音设备

安卓智能手机,iPhone。

说话人

共有223名母语说话人,其中54%为男性,46%为女性。

国家

土耳其(TUR)。

语言(地区)代码

tr-TR。

语言

土耳其语。

标注特征

转录文本。

准确率

单词准确率(WAR)为95%。

许可信息

商业许可。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作