mirae-ai/nptel_en_with_gender_and_speaker_classification
收藏Hugging Face2024-10-10 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/mirae-ai/nptel_en_with_gender_and_speaker_classification
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype: audio
- name: file_name
dtype: string
- name: transcription
dtype: string
- name: speaker_name
dtype: string
- name: transcription_normalised
dtype: string
- name: gender
dtype: string
splits:
- name: train
num_bytes: 107354898096.88907
num_examples: 435332
- name: test
num_bytes: 26849532537.2626
num_examples: 108835
download_size: 129502838999
dataset_size: 134204430634.15167
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
### 特征字段
- 音频(audio):数据类型为音频格式
- 文件名(file_name):数据类型为字符串
- 转录文本(transcription):数据类型为字符串
- 说话人姓名(speaker_name):数据类型为字符串
- 标准化转录文本(transcription_normalised):数据类型为字符串
- 性别(gender):数据类型为字符串
### 数据划分
- 训练集(train):数据占用字节数为107354898096.88907,共包含435332条样本
- 测试集(test):数据占用字节数为26849532537.2626,共包含108835条样本
### 规模参数
下载总大小:129502838999
数据集总存储大小:134204430634.15167
### 配置项
- 默认配置(default):数据文件路径配置为:训练集指向`data/train-*`,测试集指向`data/test-*`
提供机构:
mirae-ai



