Simonlob/Kany_dataset_mk4_Base

Name: Simonlob/Kany_dataset_mk4_Base
Creator: Simonlob
Published: 2024-06-05 13:53:11
License: 暂无描述

Hugging Face2024-06-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Simonlob/Kany_dataset_mk4_Base

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约7000个样本，采样率为44100 Hz，格式为float32，总语音时长为13小时。数据集的特征包括句子编号、原始文本、清理后的文本、句子类型、说话者ID、性别和音频数据。音频数据以字典形式呈现，包含采样率和音频数组等元数据。说话者为Kanykey Bakashova。数据集分为训练集和测试集，训练集包含9349个样本，测试集包含20个样本。

提供机构：

Simonlob

原始信息汇总

数据集概述

数据集特征

id: 整数类型，句子编号。
raw_transcription: 字符串类型，句子的文本。
transcription: 字符串类型，小写文本，已清除标点符号。
sentence_type: 字符串类型，句子类别（陈述句、疑问句、感叹句）。
speaker_id: 字符串类型，说话者ID，始终为"1"。
gender: 整数类型，说话者的性别，始终为"1"。
audio: 结构体类型，包含以下子特征：
- array: 序列类型，浮点32位，音频数据。
- path: 字符串类型，音频文件路径。
- sampling_rate: 整数类型，采样率。