ylacombe/accent_predictions
收藏Hugging Face2024-06-10 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ylacombe/accent_predictions
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: speaker_id
dtype: string
- name: hidden_states
sequence: float16
- name: probabilities
sequence: float16
- name: sorted_probabilities
sequence: int64
- name: top_accents
sequence: string
- name: most_frequent_first_accent
dtype: string
- name: entropy_score
dtype: float64
- name: weighted_entropy_accent
dtype: string
- name: borda_accent
dtype: string
splits:
- name: train
num_bytes: 9747001278.316
num_examples: 88172
download_size: 9680238077
dataset_size: 9747001278.316
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
ylacombe
原始信息汇总
数据集概述
数据集信息
特征
- audio: 音频数据,采样率为16000。
- speaker_id: 说话者ID,数据类型为字符串。
- hidden_states: 隐藏状态,数据类型为float16序列。
- probabilities: 概率,数据类型为float16序列。
- sorted_probabilities: 排序后的概率,数据类型为int64序列。
- top_accents: 主要口音,数据类型为字符串序列。
- most_frequent_first_accent: 最常见的第一个口音,数据类型为字符串。
- entropy_score: 熵得分,数据类型为float64。
- weighted_entropy_accent: 加权熵口音,数据类型为字符串。
- borda_accent: Borda口音,数据类型为字符串。
数据分割
- train: 训练集,包含88172个样本,总大小为9747001278.316字节。
数据集大小
- 下载大小: 9680238077字节
- 数据集大小: 9747001278.316字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



