mustafaaljadery/youtube_commons_vad_25_sample
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mustafaaljadery/youtube_commons_vad_25_sample
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype: audio
- name: video_link
dtype: string
- name: title
dtype: string
- name: channel
dtype: string
- name: date
dtype: string
- name: original_language
dtype: string
- name: word_count
dtype: int64
- name: length_seconds
dtype: float64
- name: vad_output
sequence:
sequence: float64
splits:
- name: train
num_bytes: 176265864.0
num_examples: 25
download_size: 175199873
dataset_size: 176265864.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征列表:
- 字段名:audio,数据类型:音频(audio)
- 字段名:video_link,数据类型:字符串(string)
- 字段名:title,数据类型:字符串(string)
- 字段名:channel,数据类型:字符串(string)
- 字段名:date,数据类型:字符串(string)
- 字段名:original_language,数据类型:字符串(string)
- 字段名:word_count,数据类型:词数(word_count),64位整型(int64)
- 字段名:length_seconds,数据类型:时长(秒,length_seconds),64位浮点型(float64)
- 字段名:语音活动检测输出(vad_output),数据类型:嵌套浮点序列(sequence: sequence: float64,即元素为浮点数的序列)
数据集划分:
- 划分名称:训练集(train),占用字节数:176265864.0,样本数量:25
下载大小:175199873,数据集总存储大小:176265864.0
配置项:
- 配置名称:default,数据文件:
- 划分训练集(train),文件路径:data/train-*
提供机构:
mustafaaljadery
原始信息汇总
数据集概述
数据集特征
- audio: 音频数据
- video_link: 视频链接,字符串类型
- title: 标题,字符串类型
- channel: 频道,字符串类型
- date: 日期,字符串类型
- original_language: 原始语言,字符串类型
- word_count: 字数,整数类型
- length_seconds: 时长(秒),浮点数类型
- vad_output: 语音活动检测输出,序列类型,序列内部为浮点数类型
数据集分割
- train: 训练集
- 数据量: 176265864.0 字节
- 示例数量: 25
数据集大小
- 下载大小: 175199873 字节
- 数据集大小: 176265864.0 字节



