rghermi/sfd

Name: rghermi/sfd
Creator: rghermi
Published: 2024-06-18 13:51:38
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/rghermi/sfd

下载链接

链接失效反馈

官方服务：

资源简介：

Short Film Dataset (SFD)是一个视频问答数据集，包含1,078部电影和4,885个问题。数据集用于多项选择题和开放式问题的问答任务。每个问题都有唯一的ID，每个视频也有唯一的ID，并且提供了视频的URL、问题文本、答案文本、多个选项、正确答案索引、电影标题、电影描述和电影剧情概要。

The Short Film Dataset (SFD) is a video question-answering dataset, consisting of 1,078 movies and 4,885 questions. This dataset is primarily used for multiple-choice and open-ended question answering tasks. Each entry in the dataset includes a unique identifier for the question, a unique identifier for the video, a YouTube video URL, the question text, answer options, the correct answer, the movie title, a one-sentence description of the movie plot, and a detailed summary of the movies plot.

提供机构：

rghermi

原始信息汇总

Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding

数据集概述

名称: Short Film Dataset (SFD)
类型: 视频问答数据集
包含内容: 1,078部电影和4,885个问题
任务类别: 视觉问答
语言: 英语
数据集大小: 1K<n<10K
许可证: cc-by-nc-sa-4.0

使用场景

多项选择题问答 (MCQ)
开放式问答 (OEQ)

数据集结构

question_id: 每个问题的唯一标识符
video_id: 每个视频的唯一标识符
video_url: 与问题相关的YouTube视频URL
question: 问题的文本
answer: 问题的正确答案文本
option_0: 第一个答案选项的文本
option_1: 第二个答案选项的文本
option_2: 第三个答案选项的文本
option_3: 第四个答案选项的文本
option_4: 第五个答案选项的文本
correct_answer: 正确答案在提供的选项中的索引
movie_title: 与视频相关的电影标题
movie_caption: 电影情节的一句描述
movie_synopsis: 电影情节的详细摘要

示例

csv question_id,video_id,video_url,question,answer,option_0,option_1,option_2,option_3,option_4,correct_answer,movie_title,movie_caption,movie_synopsis Gi__cddQCNU_02,Gi__cddQCNU,https://www.youtube.com/watch?v=Gi__cddQCNU,What problem does Pete encounter on his way to the hotel?,He gets stuck in Bangkoks traffic and decides to walk, getting lost in the process.,He loses his passport and must navigate Bangkoks bureaucracy to get a temporary one.,He is pickpocketed in a crowded market and loses his money and phone.,He gets stuck in Bangkoks traffic and decides to walk, getting lost in the process.,He mistakenly takes the wrong bus and ends up in a distant part of the city.,He finds that his hotel reservation has been mistakenly cancelled.,2,SONGKRAN,A coffee machine salesman falls for a boutique cafe owner on a business trip to Thailand.,Pete has just arrived in Bangkok as the country is celebrating the festival of Songkran -- the traditional Thai New Year, where people splash and soak one another with water in the streets. Its a joyful holiday, but Pete cant participate. Hes in town to make a business deal, as part of his job selling high-end coffee machines. He gets stuck in Bangkoks infamous traffic and decides to make his way to the hotel on foot. But when he gets lost amongst the many back alleys and side streets of the city, he drops into a coffee shop for help, where he meets its proprietor Mai. As pressures mount on Pete, he heads out into the city for a night that will change the rest of his life.,

数据集加载

python from datasets import load_dataset dataset = load_dataset("rghermi/sfd") print(dataset)

搜集汇总

数据集介绍

构建方式

在视频理解领域，叙事层面的语义解析始终是极具挑战性的课题。为突破这一瓶颈，研究者构建了SF20K数据集，其核心素材来源于20,143部业余短片，总时长高达3,582小时，平均每段视频持续约11分钟。数据集被精心划分为四个子集：训练集采用自动生成的合成问题，而测试集则包含基于电影梗概人工策展的问题，并进一步细分为无声电影子集和专家手工设计的挑战性子集。每条数据记录均包含问题标识符、视频链接、多选问题文本、正确答案及其索引，确保了结构的完整性。

特点

该数据集最大的特色在于其前所未有的规模与叙事深度，作为目前公开可用的最大电影数据集，它专注于故事级别的视频理解，超越了传统的动作或物体识别。数据集中问题的设计紧密围绕情节发展，例如角色在旅途中遭遇的困境，这要求模型具备跨时间段的推理能力。此外，测试集通过人工精心制作，并特别设置了无声电影和专家挑战两个子集，分别用于评估模型对非语言线索的捕捉能力与应对高难度问题的鲁棒性，从而全面衡量视频问答系统的叙事理解水平。

使用方法

研究者可通过Hugging Face平台便捷地加载该数据集。使用`datasets`库，只需调用`load_dataset("rghermi/sf20k", split="train")`即可获取训练集，同理通过指定`split`参数为`test`、`test_silent`或`test_expert`可分别加载对应的测试子集。每一条数据以CSV格式存储，包含`question`、`option_0`至`option_4`五个选项以及`correct_idx`字段。使用时，可将视频URL与问答对结合，构建端到端的视频问答模型，或在多模态预训练框架中作为叙事理解任务的微调数据。

背景与挑战

背景概述

在视频理解领域，从短片段动作识别迈向长视频叙事理解是近年来的关键跃迁。由Ridouane Ghermi、Xi Wang、Vicky Kalogeiton和Ivan Laptev等研究者于2024年提出的SF20K数据集，旨在填补现有基准在故事级语义解析上的空白。该数据集汇聚了20,143部业余短片，总时长超过3,582小时，平均每部影片约11分钟，成为目前规模最大的公开电影数据集。其核心研究问题聚焦于模型能否跨越瞬时视觉线索，捕捉影片中的因果链条、角色动机与情节转折，从而推动视频问答从感知层面向认知层面演进。SF20K的发布为长视频叙事理解提供了标准化评估平台，对多模态推理、电影叙事分析及通用人工智能的研究具有显著推动作用。

当前挑战

SF20K所应对的领域挑战在于，现有视频数据集多局限于数秒的原子动作或事件，难以评估模型对完整故事弧光的理解能力。模型需从长达数分钟的连续镜头中，识别跨场景的叙事线索、隐含的时空关联及角色意图，这对时序建模与长期依赖捕获提出了严苛要求。构建过程中，挑战同样显著：如何从海量业余短片中筛选出叙事结构清晰的样本，并确保问答对既忠实于剧情又具备足够区分度。研究团队为此设计了合成与人工双轨标注策略，其中测试集包含手动从电影梗概提炼的题目，而专家子集则进一步引入了高难度推理问题，以逼近真实叙事理解的复杂度。此外，无声电影子集的设立旨在剥离音频干扰，专门检验纯视觉叙事的理解瓶颈。

常用场景

经典使用场景

在视频理解与叙事智能的交叉领域，SF20K数据集凭借其海量短片资源与多层级问答标注，成为故事级视频理解研究的基石。该数据集最经典的场景是训练和评估模型对长视频中复杂叙事结构的解析能力，包括角色动机、事件因果链与情节转折的捕捉。研究者常利用其合成问题训练集与人工精标测试集，构建能够跨越镜头剪辑、理解整体故事脉络的视觉-语言模型，从而推动视频问答从片段级认知向全局叙事推理的范式跃迁。

衍生相关工作

SF20K的发布催生了一系列标志性研究，例如其原始论文《Long Story Short: Story-level Video Understanding from 20K Short Films》首次提出了故事级视频问答的完整框架，并开源了基线模型与评估协议。后续工作如基于大型语言模型的故事线生成器、多模态因果事件提取网络等，均以SF20K作为核心训练或测试集。此外，该数据集还启发了针对长视频中长程依赖建模的注意力机制改进工作，推动了视频Transformer架构在叙事理解任务中的性能突破。

数据集最近研究