StoryFrames

github2025-02-28 更新2025-03-03 收录

下载链接：

https://github.com/danaesavi/ImageChain

下载链接

链接失效反馈

官方服务：

资源简介：

StoryFrames是一个人工注释的数据集，旨在提高模型对图像序列的理解和推理能力。它专门设计用于像根据之前的视觉和文本信息生成故事下一场景描述等任务。该数据集重新利用了StoryBench数据集，这是一个最初设计用于预测视频未来帧的视频数据集。StoryFrames从这些视频中抽取帧，并将它们与针对下一描述预测任务的注释配对。每个“故事”是数据集的一个样本，长度和复杂度各不相同。

StoryFrames is a manually annotated dataset developed to enhance models' understanding and reasoning abilities regarding image sequences. It is specifically tailored for tasks such as generating the next scene description of a story based on prior visual and textual information. This dataset repurposes the StoryBench dataset, a video dataset initially designed for predicting future video frames. StoryFrames extracts frames from these videos and pairs them with annotations targeted at the next description prediction task. Each "story" serves as an individual sample in the dataset, with varying lengths and complexities.

创建时间：

2025-02-25

原始信息汇总

ImageChain 数据集概述

数据集简介

ImageChain 是一个用于增强多模态大型语言模型（LLM）顺序图像推理能力的框架。该框架将视觉序列视为多轮对话，提高了场景描述的准确性，并能够零样本泛化到漫画和机器人领域。

关键特点

视觉序列建模为多轮对话。
提升了下一场景描述的 SimRate（提升了3.7%-19%）。
零样本泛化到漫画和机器人。

StoryFrames 数据集

数据集来源：StoryFrames 数据集可在 Hugging Face 上获取（链接）。
数据集描述：StoryFrames 是一个由人类注释的数据集，旨在增强模型对图像序列理解和推理的能力。该数据集专为生成基于之前视觉和文本信息的下一场景描述的任务设计。它重新利用了 StoryBench 数据集，一个最初设计用于预测视频未来帧的视频数据集。StoryFrames 从这些视频中抽取帧，并为下一描述预测任务配对注释。
数据集加载： python from datasets import load_dataset

ds = load_dataset("ingoziegler/StoryFrames") ds_3 = ds.filter(lambda sample: sample["num_scenes"] == 3)
详细描述：数据集的详细描述和字段描述可在 Hugging Face 页面上查看（链接和链接）。

代码

代码来源：该仓库包含 LLaVA-NeXT 的修改版脚本（原项目链接）。
安装步骤：
1. 遵循官方的 LLaVA-NeXT 安装指南。
2. 克隆该仓库并将修改后的文件复制到 LLaVA-NeXT 目录中。

引用

ImageChain：

@misc{villegas2025imagechainadvancingsequentialimagetotext, title={ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models}, author={Danae Sánchez Villegas and Ingo Ziegler and Desmond Elliott}, year={2025}, eprint={2502.19409}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2502.19409}, }
LLaVA-NeXT：

@misc{liu2024llavanext, title={LLaVA-NeXT: Improved reasoning, OCR, and world knowledge}, url={https://llava-vl.github.io/blog/2024-01-30-llava-next/}, author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Li, Bo and Zhang, Yuanhan and Shen, Sheng and Lee, Yong Jae}, month={January}, year={2024} }

搜集汇总

数据集介绍

构建方式

StoryFrames数据集的构建是基于对StoryBench视频数据集的再利用，旨在提升模型对图像序列的理解和推理能力。该数据集通过从视频中抽取帧，并与针对下一场景描述预测任务的注释配对，形成了一个适合于多模态语言模型训练的丰富资源库。

特点

该数据集的特点在于其人工注释的精确性，以及专为提升模型在视觉序列推理方面的能力而设计。它不仅包含多变的场景长度和复杂性，还实现了对漫画和机器人领域的零样本泛化能力，显著提高了下一场景描述的准确性。

使用方法

用户可以通过Hugging Face的数据集加载工具轻松加载StoryFrames数据集。针对特定需求，如只处理包含三个场景的故事，可以通过数据集的过滤功能实现。此外，数据集的详细字段描述和使用方法均在相关文档中有详尽说明。

背景与挑战

背景概述

在计算机视觉与自然语言处理领域，实现图像与文本之间的深度交互推理一直是一项挑战性的任务。为此，研究者Danae Sánchez Villegas、Ingo Ziegler和Desmond Elliott提出了ImageChain框架，旨在增强多模态大型语言模型对连续图像序列的理解能力。该框架的核心贡献体现在将视觉序列建模为多轮对话，从而提升模型在下一场景描述方面的性能。StoryFrames数据集应运而生，其旨在通过人类标注的数据增强模型对图像序列的理解和推理能力，特别针对根据前序视觉和文本信息生成下一场景描述的任务。该数据集基于StoryBench视频数据集进行改进，通过子采样视频帧并为其配对注释，以适应下一描述预测的任务。StoryFrames数据集的创建，为相关领域的研究提供了重要资源，推动了图像到文本推理技术的发展。

当前挑战

尽管StoryFrames数据集在推动多模态语言模型的发展上取得了显著成效，但在实际应用中仍面临诸多挑战。首先，数据集构建过程中，如何确保标注质量的一致性和准确性是一个重大挑战。其次，模型在处理不同长度和复杂度的故事时，其性能稳定性是一大考验。此外，尽管数据集已经展现了在漫画和机器人领域上的零样本泛化能力，但在更广泛的场景中，如何进一步提高模型的泛化能力和鲁棒性，仍是一个待解决的问题。

常用场景

经典使用场景

在计算机视觉与自然语言处理领域，StoryFrames数据集的经典使用场景主要在于提升多模态大型语言模型对视觉序列的理解与推理能力。该数据集通过将视觉序列模拟为多轮对话，进而预测故事中下一场景的描述，为机器赋予了生成连贯故事情节的能力。

解决学术问题

StoryFrames数据集解决了学术研究中如何将视觉信息与文本信息有效结合，以及如何提高模型在序列图像理解与推理方面的难题。它的出现促进了多模态大语言模型在理解故事连续性和复杂性的表现，为零样本泛化至漫画和机器人技术等领域提供了可能。

衍生相关工作

基于StoryFrames数据集，研究者们衍生出了多项相关工作，如针对不同模态数据融合的算法研究，以及探索多模态模型在不同类型故事理解中的表现差异等。这些研究进一步拓宽了多模态学习在理论及应用层面的边界，推动了该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集