surindersinghssj/gurbani-kirtan-yt-captions-300h-clean
收藏Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/surindersinghssj/gurbani-kirtan-yt-captions-300h-clean
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: text
dtype: string
- name: raw_text
dtype: string
- name: clip_id
dtype: string
- name: start_s
dtype: float64
- name: end_s
dtype: float64
- name: duration_s
dtype: float64
- name: n_cues
dtype: int64
- name: clip_mode
dtype: string
- name: caption_offset_s
dtype: float64
- name: video_id
dtype: string
- name: caption_lang
dtype: string
- name: text_cleaned
dtype: string
- name: is_simran
dtype: bool
- name: drop_candidate
dtype: bool
- name: n_waheguru_normalized
dtype: int64
splits:
- name: train
num_bytes: 67633007972.0
num_examples: 228921
download_size: 65943504645
dataset_size: 67633007972.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 音频(audio):数据类型为音频格式,采样率为16000赫兹
- 文本(text):数据类型为字符串
- 原始文本(raw_text):数据类型为字符串
- 片段ID(clip_id):数据类型为字符串
- 起始时间(start_s,单位:秒):数据类型为64位浮点数
- 结束时间(end_s,单位:秒):数据类型为64位浮点数
- 持续时长(duration_s,单位:秒):数据类型为64位浮点数
- 提示词数量(n_cues):数据类型为64位整数
- 片段模式(clip_mode):数据类型为字符串
- 字幕偏移时间(caption_offset_s,单位:秒):数据类型为64位浮点数
- 视频ID(video_id):数据类型为字符串
- 字幕语言(caption_lang):数据类型为字符串
- 清洗后文本(text_cleaned):数据类型为字符串
- 是否为Simran(is_simran):数据类型为布尔值
- 是否丢弃候选样本(drop_candidate):数据类型为布尔值
- 归一化Waheguru计数(n_waheguru_normalized):数据类型为64位整数
数据划分:
- 训练集(train):总字节数为67633007972.0,样本总数为228921
下载大小:65943504645字节
数据集总大小:67633007972.0字节
配置项:
- 默认配置(default):
数据文件:训练集划分对应的数据文件路径为 data/train-*
提供机构:
surindersinghssj



