wufeim/aug_text
收藏Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wufeim/aug_text
下载链接
链接失效反馈官方服务:
资源简介:
VATEX数据集中每个视频包含10个描述,数据集文件包括一个包含所有视频的文件夹和一个包含所有描述的JSON文件。MSR-VTT数据集中每个视频包含1个描述,数据集文件包括一个包含所有视频的压缩文件和一个包含所有描述的CSV文件。
提供机构:
wufeim
原始信息汇总
视频增强文本数据集
VATEX
- 每个视频包含10个字幕。
- 数据集文件包括:
test/:包含所有可用视频的文件夹。vatex_public_test_english_v1.1.json:包含所有字幕的JSON文件。
示例数据加载代码:
python import os import json
path = vatex_public_test_english_v1.1.json d = json.load(open(path, r))
captions = {v[videoID]: v[enCap] for v in d}
for vname in captions: video_path = os.path.join(test, vname+.mp4) # 视频路径 captions = captions[vname] # 包含10个字符串的列表
MSR-VTT
- 每个视频包含1个字幕。
- 数据集文件包括:
MSRVTT.zip:包含所有视频。MSRVTT_JSFUSION_test.csv:包含所有字幕。
示例数据加载代码:
python import os import pandas as pd
path = MSRVTT_JSFUSION_test.csv df = pd.read_csv(path)
vid_id_list = df[video_id].tolist() caption_list = df[sentence].tolist()
for vid_id, caption in zip(vid_id_list, caption_list): video_path = os.path.join(MSRVTT, videos, all, vid_id+.mp4) captions = [caption] # 包含1个字符串的列表



