Nexdata/310_Hours_Turkish_Scripted_Monologue_Smartphone_Speech_Dataset

Name: Nexdata/310_Hours_Turkish_Scripted_Monologue_Smartphone_Speech_Dataset
Creator: Nexdata
Published: 2024-04-12 06:21:17
License: 暂无描述

Hugging Face2024-04-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/310_Hours_Turkish_Scripted_Monologue_Smartphone_Speech_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

土耳其脚本独白智能手机语音数据集是基于给定脚本收集的独白，并转录为文本内容。该数据集来自土耳其的223名不同背景的说话者，地理分布广泛，旨在提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试，并严格遵守数据保护法规和隐私标准，确保用户隐私和合法权益。数据格式为16kHz、16bit、未压缩的wav文件，单声道。录音条件为安静的室内环境，低背景噪音，无回声。录音设备包括Android智能手机和iPhone。说话者包括223名母语为土耳其语的人，其中54%为男性，46%为女性。数据集的语言为土耳其语，标注特征为转录文本，单词准确率为95%。

提供机构：

Nexdata

原始信息汇总

数据集描述

土耳其剧本独白智能手机语音数据集，基于给定剧本收集的独白语音，并附有文本转录内容。该数据集由来自土耳其的广泛多样化的223名说话人收集，地理分布广泛，有助于提升模型在真实复杂任务中的性能。经过多家AI公司的质量测试。严格遵守数据保护法规和隐私标准，确保在整个数据收集、存储和使用过程中维护用户隐私和法律权利，所有数据集均符合GDPR、CCPA、PIPL标准。

数据格式

16kHz，16位，未压缩的wav格式，单声道。

录音条件

安静的室内环境，低背景噪音，无回声。

录音设备

安卓智能手机，iPhone。

说话人

共有223名母语说话人，其中54%为男性，46%为女性。

国家

土耳其（TUR）。

语言（地区）代码

tr-TR。

语言

土耳其语。

标注特征

转录文本。

准确率

单词准确率（WAR）为95%。

许可信息

商业许可。

5,000+

优质数据集

54 个

任务类型

进入经典数据集