wufeim/aug_text

Name: wufeim/aug_text
Creator: wufeim
Published: 2023-08-30 05:04:49
License: 暂无描述

Hugging Face2023-08-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wufeim/aug_text

下载链接

链接失效反馈

官方服务：

资源简介：

VATEX数据集中每个视频包含10个描述，数据集文件包括一个包含所有视频的文件夹和一个包含所有描述的JSON文件。MSR-VTT数据集中每个视频包含1个描述，数据集文件包括一个包含所有视频的压缩文件和一个包含所有描述的CSV文件。

提供机构：

wufeim

原始信息汇总

视频增强文本数据集

每个视频包含10个字幕。
数据集文件包括：
- test/：包含所有可用视频的文件夹。
- vatex_public_test_english_v1.1.json：包含所有字幕的JSON文件。

示例数据加载代码：

python import os import json

path = vatex_public_test_english_v1.1.json d = json.load(open(path, r))

captions = {v[videoID]: v[enCap] for v in d}

for vname in captions: video_path = os.path.join(test, vname+.mp4) # 视频路径 captions = captions[vname] # 包含10个字符串的列表

示例数据加载代码：

python import os import pandas as pd

path = MSRVTT_JSFUSION_test.csv df = pd.read_csv(path)

vid_id_list = df[video_id].tolist() caption_list = df[sentence].tolist()

for vid_id, caption in zip(vid_id_list, caption_list): video_path = os.path.join(MSRVTT, videos, all, vid_id+.mp4) captions = [caption] # 包含1个字符串的列表

5,000+

优质数据集

54 个

任务类型

进入经典数据集