mangoesai/SR_Input_Dataset_Testing
收藏Hugging Face2024-04-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mangoesai/SR_Input_Dataset_Testing
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: file_name
dtype: string
- name: wav
struct:
- name: array
sequence: float64
- name: path
dtype: string
- name: sampling_rate
dtype: int64
- name: transcription
dtype: string
- name: chunk_speaker
dtype: string
- name: start_time
dtype: float64
- name: end_time
dtype: float64
- name: date
dtype: string
- name: session_speaker
dtype: string
- name: time
dtype: string
- name: nemo_embedding
sequence:
sequence: float64
- name: doctor_name
dtype: string
- name: patient_name
dtype: string
splits:
- name: train
num_bytes: 515934013.3766234
num_examples: 804
download_size: 330475525
dataset_size: 515934013.3766234
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
mangoesai
原始信息汇总
数据集概述
数据集特征
- file_name:文件名,数据类型为字符串。
- wav:音频文件信息,包含以下子特征:
- array:音频数据数组,数据类型为浮点数64位。
- path:音频文件路径,数据类型为字符串。
- sampling_rate:采样率,数据类型为整数64位。
- transcription:转录文本,数据类型为字符串。
- chunk_speaker:片段发言人,数据类型为字符串。
- start_time:开始时间,数据类型为浮点数64位。
- end_time:结束时间,数据类型为浮点数64位。
- date:日期,数据类型为字符串。
- session_speaker:会话发言人,数据类型为字符串。
- time:时间,数据类型为字符串。
- nemo_embedding:嵌入向量,数据类型为浮点数64位序列。
- doctor_name:医生姓名,数据类型为字符串。
- patient_name:患者姓名,数据类型为字符串。
数据集分割
- train:训练集,包含804个样本,总大小为515934013.3766234字节。
数据集大小
- 下载大小:330475525字节。
- 数据集大小:515934013.3766234字节。



