five

surindersinghssj/gurbani-kirtan-yt-captions-300h-clean

收藏
Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/surindersinghssj/gurbani-kirtan-yt-captions-300h-clean
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: audio dtype: audio: sampling_rate: 16000 - name: text dtype: string - name: raw_text dtype: string - name: clip_id dtype: string - name: start_s dtype: float64 - name: end_s dtype: float64 - name: duration_s dtype: float64 - name: n_cues dtype: int64 - name: clip_mode dtype: string - name: caption_offset_s dtype: float64 - name: video_id dtype: string - name: caption_lang dtype: string - name: text_cleaned dtype: string - name: is_simran dtype: bool - name: drop_candidate dtype: bool - name: n_waheguru_normalized dtype: int64 splits: - name: train num_bytes: 67633007972.0 num_examples: 228921 download_size: 65943504645 dataset_size: 67633007972.0 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 音频(audio):数据类型为音频格式,采样率为16000赫兹 - 文本(text):数据类型为字符串 - 原始文本(raw_text):数据类型为字符串 - 片段ID(clip_id):数据类型为字符串 - 起始时间(start_s,单位:秒):数据类型为64位浮点数 - 结束时间(end_s,单位:秒):数据类型为64位浮点数 - 持续时长(duration_s,单位:秒):数据类型为64位浮点数 - 提示词数量(n_cues):数据类型为64位整数 - 片段模式(clip_mode):数据类型为字符串 - 字幕偏移时间(caption_offset_s,单位:秒):数据类型为64位浮点数 - 视频ID(video_id):数据类型为字符串 - 字幕语言(caption_lang):数据类型为字符串 - 清洗后文本(text_cleaned):数据类型为字符串 - 是否为Simran(is_simran):数据类型为布尔值 - 是否丢弃候选样本(drop_candidate):数据类型为布尔值 - 归一化Waheguru计数(n_waheguru_normalized):数据类型为64位整数 数据划分: - 训练集(train):总字节数为67633007972.0,样本总数为228921 下载大小:65943504645字节 数据集总大小:67633007972.0字节 配置项: - 默认配置(default): 数据文件:训练集划分对应的数据文件路径为 data/train-*
提供机构:
surindersinghssj
二维码
社区交流群
二维码
科研交流群
商业服务