REFINESUMM

github2024-10-02 更新2024-10-04 收录

下载链接：

https://github.com/amazon-science/refinesumm

下载链接

链接失效反馈

官方服务：

资源简介：

REFINESUMM数据集是一个综合基准，旨在用于训练和评估面向图像-文本多模态摘要的视觉-语言模型。该数据集包括文本、相关图像和基于维基百科文章及其附带图像的摘要三元组。这些摘要是通过多模态大型语言模型LLaVA-v1.6-Mistral-7B自动生成的，该模型专门为此任务进行了自我精炼。

The REFINESUMM dataset is a comprehensive benchmark designed for training and evaluating vision-language models tailored for image-text multimodal summarization. This dataset includes triplets of text, associated images, and summaries based on Wikipedia articles and their accompanying images. These summaries are automatically generated by the multimodal large language model LLaVA-v1.6-Mistral-7B, which has been specifically self-refined for this task.

创建时间：

2024-09-23

原始信息汇总

REFINESUMM: 自精炼多模态语言模型生成多模态摘要数据集

数据集概述

名称: REFINESUMM
类型: 多模态摘要数据集
目标: 训练和评估视觉-语言模型，用于图像-文本多模态摘要任务
内容: 包含文本、相关图像和基于维基百科文章及其附带图像的摘要的三元组
生成模型: 使用多模态大语言模型（LLaVA-v1.6-Mistral-7B）自动生成摘要，并通过自精炼过程进行优化

数据集下载

下载地址: Hugging Face

数据加载

步骤:
1. 下载WikiWeb2M的测试集： python wget https://storage.googleapis.com/gresearch/wit/wikiweb2m/wikiweb2m-test.tfrecord.gz
2. 将下载的文件放置在data/目录下
3. 在python update_data_from_wikiweb2m.py文件的第12行设置分割（train, val, test）
4. 运行以下命令： python python update_data_from_wikiweb2m.py
5. 数据集将被保存到data/目录下，包含txt（文章）、img（图像）和summary（摘要）列

引用

引用格式:

@inproceedings{patil-etal-2024-refinesumm, title = "{REFINESUMM}: Self-Refining {MLLM} for Generating a Multimodal Summarization Dataset", author = "Patil, Vaidehi and Ribeiro, Leonardo and Liu, Mengwen and Bansal, Mohit and Dreyer, Markus", editor = "Ku, Lun-Wei and Martins, Andre and Srikumar, Vivek", booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = aug, year = "2024", address = "Bangkok, Thailand", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.acl-long.743", pages = "13773--13786", abstract = "Multimodal Large Language Models (MLLMs) excel at synthesizing key information from diverse sources. However, generating accurate and faithful multimodal summaries is challenging, primarily due to the lack of appropriate multimodal datasets for fine-tuning that meaningfully integrate textual and visual modalities. To address this gap, we present a new dataset designed specifically for image-text multimodal summarization, harnessing the capabilities of state-of-the-art MLLMs. We generate summaries from Wikipedia sections and corresponding images and evaluate them across text-based, visual and multimodal dimensions, employing reference-free metrics. To refine the dataset, we: (1) Filter the MLLM-generated summaries by training a critic model on human annotations and using its predictions to remove low-quality summaries; (2) Fine-tune the MLLM with the filtered high-quality summaries; (3) Use the fine-tuned model in turn to regenerate the summaries. This self-refinement process significantly improves summary quality, as measured by human judgements and automatic multimodal metrics, resulting in a valuable dataset for multimodal summarization research. The dataset is publicly available at https://github.com/amazon-science/refinesumm.", }

搜集汇总

数据集介绍

构建方式

REFINESUMM数据集的构建基于维基百科文章及其相关图像，通过多模态大语言模型LLaVA-v1.6-Mistral-7B进行自动摘要生成。该模型经过自我精炼过程，首先生成初步摘要，然后通过训练一个批评模型来筛选高质量摘要，进而对模型进行微调，最终使用微调后的模型重新生成摘要。这一自我精炼过程显著提升了摘要的质量，确保了数据集的准确性和可靠性。

特点

REFINESUMM数据集的显著特点在于其多模态性和自我精炼机制。该数据集不仅包含了文本和图像的双重信息，还通过自我精炼过程确保了摘要的高质量。此外，数据集的设计旨在促进图像-文本多模态摘要的研究，填补了现有数据集在这一领域的空白。

使用方法

使用REFINESUMM数据集时，用户可以通过Hugging Face平台直接下载数据。下载后，用户可以利用提供的Python脚本从WikiWeb2M数据集中提取相关文章和图像，并获取相应的摘要。数据集的加载和处理过程简便，适合用于训练和评估多模态摘要模型。

背景与挑战

背景概述

REFINESUMM数据集是由Vaidehi Patil等人于2024年创建，旨在为图像-文本多模态摘要任务提供一个全面的基准。该数据集基于维基百科文章及其相关图像，通过多模态大语言模型LLaVA-v1.6-Mistral-7B自动生成摘要。REFINESUMM的核心研究问题是如何生成一个既能准确反映文本信息又能忠实体现图像内容的多模态摘要。该数据集的创建不仅填补了多模态摘要领域的数据空白，还为视觉-语言模型的训练和评估提供了宝贵的资源，推动了多模态摘要研究的发展。

当前挑战

REFINESUMM数据集在构建过程中面临多项挑战。首先，如何确保生成的摘要既能准确反映文本信息又能忠实体现图像内容，是一个复杂的多模态整合问题。其次，数据集的自动生成依赖于多模态大语言模型，如何通过自精炼过程提高摘要质量，减少低质量摘要的产生，是另一个关键挑战。此外，数据集的评估需要跨越文本、视觉和多模态维度，采用无参考的评估指标，这增加了评估的复杂性和难度。这些挑战不仅影响了数据集的质量，也对多模态摘要领域的研究提出了更高的要求。

常用场景

经典使用场景

在多模态摘要生成领域，REFINESUMM数据集的经典使用场景主要集中在训练和评估视觉-语言模型。该数据集通过整合维基百科文章及其相关图像，生成高质量的多模态摘要，为模型提供了丰富的训练素材。研究者可以利用这些数据对模型进行微调，以提升其在图像与文本结合的摘要任务中的表现。

实际应用

在实际应用中，REFINESUMM数据集可广泛应用于新闻摘要、社交媒体内容分析和教育资源整合等领域。例如，新闻机构可以利用该数据集训练模型，自动生成图文并茂的新闻摘要，提升信息传播效率。此外，教育平台也可以通过该数据集生成多模态学习材料，增强学生的学习体验。

衍生相关工作

REFINESUMM数据集的发布催生了多项相关研究工作，特别是在多模态学习和视觉-语言模型领域。例如，有研究者基于该数据集开发了新的评估指标，以更准确地衡量多模态摘要的质量。此外，还有研究团队利用REFINESUMM数据集进行跨模态迁移学习，探索不同模态信息之间的交互与融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集