jp1924/BroadcastSpeech
收藏Hugging Face2024-04-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/BroadcastSpeech
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: id
dtype: string
- name: sentence
dtype: string
- name: original_form
dtype: string
- name: start
dtype: float32
- name: end
dtype: float32
- name: term
dtype: string
- name: environment
dtype: string
- name: hangeulToEnglish
list:
- name: id
dtype: int16
- name: hangeul
dtype: string
- name: english
dtype: string
- name: begin
dtype: int16
- name: end
dtype: int16
- name: hangeulToNumber
list:
- name: id
dtype: int16
- name: hangeul
dtype: string
- name: number
dtype: string
- name: begin
dtype: int16
- name: end
dtype: int16
- name: speaker
struct:
- name: id
dtype: string
- name: name
dtype: string
- name: age
dtype: string
- name: role
dtype: string
- name: sex
dtype: string
- name: metadata
struct:
- name: title
dtype: string
- name: creator
dtype: string
- name: distributor
dtype: string
- name: year
dtype: int16
- name: category
dtype: string
- name: sampling
dtype: string
- name: date
dtype: string
- name: topic
dtype: string
- name: media
dtype: string
- name: communication
dtype: string
- name: type
dtype: string
- name: domain
dtype: string
- name: speaker_num
dtype: int16
- name: organization
dtype: string
- name: annotation_level
dtype: string
splits:
- name: train
num_bytes: 924995624222.125
num_examples: 5884143
- name: validation
num_bytes: 117241502315.25
num_examples: 696158
download_size: 1035999535129
dataset_size: 1042237126537.375
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
提供机构:
jp1924
原始信息汇总
数据集概述
数据集特征
- audio: 音频特征,采样率为16000。
- id: 字符串类型。
- sentence: 字符串类型。
- original_form: 字符串类型。
- start: 浮点数类型。
- end: 浮点数类型。
- term: 字符串类型。
- environment: 字符串类型。
- hangeulToEnglish: 列表类型,包含id(整数16位)、hangeul(字符串)、english(字符串)、begin(整数16位)、end(整数16位)。
- hangeulToNumber: 列表类型,包含id(整数16位)、hangeul(字符串)、number(字符串)、begin(整数16位)、end(整数16位)。
- speaker: 结构体类型,包含id(字符串)、name(字符串)、age(字符串)、role(字符串)、sex(字符串)。
- metadata: 结构体类型,包含多个字段,如title、creator、distributor等,均为字符串类型,以及一些整数类型如year和speaker_num。
数据集分割
- train: 训练集,包含5884143个样本,总大小为924995624222.125字节。
- validation: 验证集,包含696158个样本,总大小为117241502315.25字节。
数据集大小
- 下载大小: 1035999535129字节。
- 数据集总大小: 1042237126537.375字节。
配置
- config_name: default
- data_files:
- train: 路径为data/train-*。
- validation: 路径为data/validation-*。



