youtube_caption_yue2

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/ming030890/youtube_caption_yue2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含音频、视频和文本信息的数据集，包含字段有id，描述（caption），开始时间（start），结束时间（end），语音描述（sensevoice_caption），语音单词（sensevoice_words，包含单词、开始时间和持续时间），音频（采样率为16000），上传者id（uploader_id）和视频id（video_id）。数据集分为训练集和测试集，训练集包含56484个样本，测试集包含1000个样本。

创建时间：

2025-07-12

原始信息汇总

数据集概述

基本信息

数据集名称: youtube_caption_yue2
下载大小: 385165068 bytes
数据集大小: 397041655.656 bytes

数据特征

id: 字符串类型，标识每条数据
caption: 字符串类型，字幕内容
start: 浮点数类型，字幕开始时间
end: 浮点数类型，字幕结束时间
sensevoice_caption: 字符串类型，语音识别字幕
sensevoice_words: 列表类型，包含以下字段：
- word: 字符串类型，单词内容
- start: 浮点数类型，单词开始时间
- duration: 浮点数类型，单词持续时间
audio: 音频类型，采样率为16000 Hz
uploader_id: 字符串类型，上传者ID
video_id: 字符串类型，视频ID

数据划分

train:
- 样本数量: 56484
- 数据大小: 390072658.15165097 bytes
test:
- 样本数量: 1000
- 数据大小: 6968997.504349036 bytes

配置文件

默认配置:
- train数据路径: data/train-*
- test数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

该数据集源自YouTube平台带有粤语人工字幕的视频资源，通过SenseVoice语音识别系统对音频内容进行重新转写，并经过严格筛选构建而成。构建过程中特别保留了自动语音识别(ASR)输出与原始字幕完全匹配的纯净片段，以及仅存在同音字或英文单词差异的疑似错误片段，形成高质量的音频-文本配对语料库。数据采集过程注重时间戳对齐，每个片段均标注了在原始音频中的起止时间。

使用方法

使用HuggingFace Datasets库可便捷加载该数据集，通过指定'ming030890/youtube_caption_yue'路径即可获取训练集与测试集。典型应用场景包括：加载音频数据用于语音识别模型训练，对比原始字幕与ASR转写结果进行错误分析，或通过IPython.display.Audio实时播放样本验证数据质量。研究人员需注意遵守YouTube原始视频的许可协议。

背景与挑战

背景概述

YouTube ASR Caption Dataset (Cantonese) 是一个专注于粤语语音识别研究的数据集，由研究人员从YouTube视频中提取带有手动字幕的粤语内容构建而成。该数据集通过SenseVoice技术对音频进行重新转录，并筛选出高质量的音频-字幕对，旨在支持语音识别模型的训练与错误分析。粤语作为一种重要的汉语方言，其独特的语音和词汇系统为自然语言处理领域带来了特殊挑战，该数据集的建立填补了粤语语音识别研究资源的空白，为相关领域的研究提供了宝贵的数据支持。

当前挑战

该数据集面临的挑战主要包括两方面：在领域问题方面，粤语的复杂语音系统和丰富的同音字现象使得语音识别模型的准确性难以保证，尤其是在处理同音字和英语借词时容易产生错误。在构建过程中，数据集的创建者需要克服音频质量不均、背景噪音干扰以及手动字幕与语音内容不完全匹配等问题，确保筛选出的音频-字幕对具有高度一致性。此外，粤语的地域变体和口语化表达进一步增加了数据清洗和标注的难度。

常用场景

经典使用场景

在粤语语音识别领域，youtube_caption_yue2数据集因其高质量的音频-字幕对而成为研究者的重要资源。该数据集通过筛选YouTube视频中人工提供的粤语字幕与SenseVoice自动转录结果一致的片段，为语音识别模型的训练与评估提供了可靠数据。其经典使用场景包括训练端到端的粤语语音识别系统，以及进行语音识别错误分析与修正。

解决学术问题

该数据集有效解决了粤语语音识别研究中高质量训练数据稀缺的学术难题。通过提供35小时的精校音频-文本对齐数据，研究者能够突破方言语音识别中的音素标注瓶颈。特别针对粤语同音字和英语借词等特殊现象，数据集为探究语音识别系统在方言混合语境下的表现提供了实证基础，推动了方言语音技术研究的深入发展。

实际应用

在应用层面，该数据集支撑了粤语智能语音助手的开发，显著提升了香港及广东地区的语音交互系统准确率。教育科技公司利用其构建粤语发音评估工具，帮助学习者纠正发音。媒体行业则基于该数据集开发自动字幕生成系统，解决了粤语视频内容无障碍访问的技术难题。

数据集最近研究