yongchanskii/youtube-data-various-domain-v2

Name: yongchanskii/youtube-data-various-domain-v2
Creator: yongchanskii
Published: 2024-06-15 01:35:28
License: 暂无描述

Hugging Face2024-06-15 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/yongchanskii/youtube-data-various-domain-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于语音识别和文本分析，包含多个与视频和音频相关的特征，如视频源、频道名称、类别、标题、视频ID、领域词汇、音频文件、转录文本路径、时间戳、错误率（WER和CER）、参考文本和假设文本等。数据集分为训练集、测试集和验证集，每个集包含不同数量的示例和字节数，适用于开发和评估语音识别和文本处理模型。

提供机构：

yongchanskii

原始信息汇总

数据集概述

特征信息

source: 数据类型为字符串。
channelName: 数据类型为字符串。
category: 数据类型为字符串。
title: 数据类型为字符串。
videoId: 数据类型为字符串。
domainWords: 数据类型为字符串。
audio: 包含音频数据，采样率为16000。
transcriptionPath: 数据类型为字符串。
start: 数据类型为浮点数。
end: 数据类型为浮点数。
WER: 数据类型为浮点数。
CER: 数据类型为浮点数。
CER_d: 数据类型为浮点数。
CER_pn: 数据类型为浮点数。
referenceText: 数据类型为字符串。
hypotheseText: 数据类型为字符串。
referenceTextLength: 数据类型为整数。
hypotheseTextLength: 数据类型为整数。
index_level_0: 数据类型为整数。

数据集划分

train: 包含3756个样本，大小为999691116.516字节。
test: 包含801个样本，大小为212739165.0字节。
validation: 包含294个样本，大小为75154647.0字节。

数据集大小

下载大小: 1306242260字节。
数据集总大小: 1287584928.516字节。

配置信息

config_name: default
- data_files:
  - train: 路径为data/train-*。
  - test: 路径为data/test-*。
  - validation: 路径为data/validation-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集