hammershock/HBK08-subtitles
收藏Hugging Face2024-06-07 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/hammershock/HBK08-subtitles
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
- text2text-generation
- text-classification
language:
- zh
size_categories:
- 1K<n<10K
---
# HBK08-subtitles
2024-05-26之前`红警HBK08`所有视频的数据集,数据来源于网络爬虫
1. `metadata.tsv`: 视频元数据: 包括url,bvid, UP主,标题,播放量,日期,时长;
2. `raw_data.json`: 原始视频字幕信息
3. `text_cut.json`: 文本分割标注,标记了充电投币感谢,以及视频中出现的广告
- `<begin>`: 正文开始
- `<ad_begin>`: 广告开始
- `<ad_end>`: 广告结束
- `[discarded]`: 标记这个文档被丢弃
4. `ad_key_words.txt`: 广告关键词
5. `corrected_data.tsv`: 粗略清洗的文本数据
- 主要采用文本替换+少量人工校对替换错误的字幕
- 少量以`[verified]`标签开头的经过了人工听写校对
提供机构:
hammershock
原始信息汇总
HBK08-subtitles 数据集概述
数据集信息
- 许可证: MIT
- 任务类别:
- 文本生成
- 文本到文本生成
- 文本分类
- 语言: 中文
- 数据集大小: 1K<n<10K
数据集内容
- metadata.tsv: 视频元数据,包括url、bvid、UP主、标题、播放量、日期、时长。
- raw_data.json: 原始视频字幕信息。
- text_cut.json: 文本分割标注,标记了充电投币感谢以及视频中出现的广告。
<begin>: 正文开始<ad_begin>: 广告开始<ad_end>: 广告结束[discarded]: 标记文档被丢弃
- ad_key_words.txt: 广告关键词。
- corrected_data.tsv: 粗略清洗的文本数据。
- 主要采用文本替换+少量人工校对替换错误的字幕
- 少量以
[verified]标签开头的经过了人工听写校对



