StoryFrames
收藏ImageChain 数据集概述
数据集简介
ImageChain 是一个用于增强多模态大型语言模型(LLM)顺序图像推理能力的框架。该框架将视觉序列视为多轮对话,提高了场景描述的准确性,并能够零样本泛化到漫画和机器人领域。
关键特点
- 视觉序列建模为多轮对话。
- 提升了下一场景描述的 SimRate(提升了3.7%-19%)。
- 零样本泛化到漫画和机器人。
StoryFrames 数据集
-
数据集来源:StoryFrames 数据集可在 Hugging Face 上获取(链接)。
-
数据集描述:StoryFrames 是一个由人类注释的数据集,旨在增强模型对图像序列理解和推理的能力。该数据集专为生成基于之前视觉和文本信息的下一场景描述的任务设计。它重新利用了 StoryBench 数据集,一个最初设计用于预测视频未来帧的视频数据集。StoryFrames 从这些视频中抽取帧,并为下一描述预测任务配对注释。
-
数据集加载: python from datasets import load_dataset
ds = load_dataset("ingoziegler/StoryFrames") ds_3 = ds.filter(lambda sample: sample["num_scenes"] == 3)
代码
- 代码来源:该仓库包含 LLaVA-NeXT 的修改版脚本(原项目链接)。
- 安装步骤:
- 遵循官方的 LLaVA-NeXT 安装指南。
- 克隆该仓库并将修改后的文件复制到 LLaVA-NeXT 目录中。
引用
-
ImageChain:
@misc{villegas2025imagechainadvancingsequentialimagetotext, title={ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models}, author={Danae Sánchez Villegas and Ingo Ziegler and Desmond Elliott}, year={2025}, eprint={2502.19409}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2502.19409}, }
-
LLaVA-NeXT:
@misc{liu2024llavanext, title={LLaVA-NeXT: Improved reasoning, OCR, and world knowledge}, url={https://llava-vl.github.io/blog/2024-01-30-llava-next/}, author={Liu, Haotian and Li, Chunyuan and Li, Yuheng and Li, Bo and Zhang, Yuanhan and Shen, Sheng and Lee, Yong Jae}, month={January}, year={2024} }




