five

wufeim/aug_text

收藏
Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wufeim/aug_text
下载链接
链接失效反馈
官方服务:
资源简介:
VATEX数据集中每个视频包含10个描述,数据集文件包括一个包含所有视频的文件夹和一个包含所有描述的JSON文件。MSR-VTT数据集中每个视频包含1个描述,数据集文件包括一个包含所有视频的压缩文件和一个包含所有描述的CSV文件。
提供机构:
wufeim
原始信息汇总

视频增强文本数据集

VATEX

  • 每个视频包含10个字幕。
  • 数据集文件包括:
    • test/:包含所有可用视频的文件夹。
    • vatex_public_test_english_v1.1.json:包含所有字幕的JSON文件。

示例数据加载代码:

python import os import json

path = vatex_public_test_english_v1.1.json d = json.load(open(path, r))

captions = {v[videoID]: v[enCap] for v in d}

for vname in captions: video_path = os.path.join(test, vname+.mp4) # 视频路径 captions = captions[vname] # 包含10个字符串的列表

MSR-VTT

  • 每个视频包含1个字幕。
  • 数据集文件包括:
    • MSRVTT.zip:包含所有视频。
    • MSRVTT_JSFUSION_test.csv:包含所有字幕。

示例数据加载代码:

python import os import pandas as pd

path = MSRVTT_JSFUSION_test.csv df = pd.read_csv(path)

vid_id_list = df[video_id].tolist() caption_list = df[sentence].tolist()

for vid_id, caption in zip(vid_id_list, caption_list): video_path = os.path.join(MSRVTT, videos, all, vid_id+.mp4) captions = [caption] # 包含1个字符串的列表

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作