Visual News

Name: Visual News
Creator: 马里兰大学
Published: 2021-09-14 02:53:35
License: 暂无描述

arXiv2021-09-14 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2010.03743v3

下载链接

链接失效反馈

官方服务：

资源简介：

Visual News是一个大规模的新闻图像标题数据集，包含超过一百万条新闻图像及其相关新闻文章、图像标题、作者信息和其他元数据。该数据集由马里兰大学创建，旨在为新闻图像标题生成任务提供丰富的信息，如事件和实体。数据集内容丰富，涵盖多种新闻来源和主题，支持新闻图像标题生成的研究。创建过程中，数据集经过筛选和处理，确保图像和文本的质量。该数据集的应用领域包括新闻图像标题生成、文本摘要和假新闻检测等，旨在解决新闻图像理解和信息提取的挑战。

Visual News is a large-scale news image captioning dataset containing over one million news images along with their associated news articles, image captions, author information and other metadata. Developed by the University of Maryland, this dataset is designed to provide rich contextual information including events and entities for the news image captioning task. It features abundant content spanning diverse news sources and topics, supporting research on news image captioning. During its construction, the dataset underwent strict filtering and processing to ensure the quality of both images and their accompanying text. Its application scenarios include news image captioning, text summarization, fake news detection and other fields, aiming to address the core challenges in news image understanding and information extraction.

提供机构：

马里兰大学

创建时间：

2020-10-08

搜集汇总

数据集介绍

构建方式

在新闻图像描述领域，Visual News数据集的构建体现了对多模态信息融合的深度考量。该数据集从《卫报》、BBC、《今日美国》和《华盛顿邮报》四家新闻机构系统采集了超过一百万张新闻图像，每张图像均配有对应的新闻文章、图像描述、作者信息及其他元数据。为确保数据质量，研究团队首先过滤了高度或宽度小于180像素的低分辨率图像，并保留了描述长度在5至31个词之间的样本。通过整合视觉与文本信息，数据集不仅涵盖了广泛的新闻主题，还突出了人物、地点和事件等命名实体的关键作用，为新闻图像描述任务提供了丰富而多样的基准。

使用方法

Visual News数据集的使用方法聚焦于新闻图像描述任务的模型训练与评估。研究者可将图像与对应的新闻文章作为多模态输入，利用视觉特征提取器（如ResNet152）和文本编码器处理图像及文章的前300个词符，同时通过命名实体识别技术提取关键实体信息。在模型设计上，可借鉴Visual News Captioner的架构，集成注意力机制、视觉选择性层和指针生成器模块，以融合视觉与文本特征并准确生成包含实体的描述。评估时，除了BLEU-4、METEOR等通用指标，更注重CIDEr分数及命名实体的精确率与召回率，以全面衡量模型在新闻语境下的描述能力。数据集的划分通常按新闻机构均匀采样，确保训练、验证和测试集的代表性。

背景与挑战

背景概述

在新闻图像描述领域，传统数据集如COCO虽为图像描述任务提供了基础，但其描述偏向日常物品，缺乏对新闻场景中关键人物、地点和事件等命名实体的捕捉。为应对这一局限，马里兰大学、亚马逊Alexa、弗吉尼亚大学和莱斯大学的研究团队于2021年联合推出了Visual News数据集。该数据集包含超过一百万张新闻图像，并配有关联文章、图像描述、作者信息等元数据，旨在推动新闻图像描述任务的发展，通过融合视觉与文本特征生成富含事件和实体信息的描述，显著提升了模型在新闻领域的应用潜力。

当前挑战

新闻图像描述任务面临的核心挑战在于准确识别并生成图像中的命名实体，如特定人物、组织和地点，这些实体对理解新闻事件至关重要。构建过程中，数据收集需处理多源新闻机构的异构风格，包括描述长度、实体频率的差异，以及确保图像与文章的对齐质量。此外，模型需克服词汇外实体问题，避免生成通用描述，同时融合多模态信息以提升描述的准确性和丰富性，这些挑战共同凸显了新闻图像描述任务的复杂性。

常用场景

经典使用场景

在新闻图像描述领域，Visual News数据集常被用于训练和评估能够生成富含命名实体的图像描述模型。该数据集通过整合超过一百万张新闻图像及其关联文章、描述和元数据，为研究者提供了一个大规模、多样化的基准平台。经典使用场景涉及开发多模态融合技术，使模型能够同时关注视觉特征和文本上下文，从而准确识别并描述图像中的人物、地点和事件等关键实体。

解决学术问题

Visual News数据集有效解决了传统图像描述任务中命名实体识别不足的学术难题。相较于通用数据集如COCO，其描述更侧重于具体事件和实体，而非泛化对象。该数据集推动了多模态注意力机制和端到端生成模型的发展，帮助研究者克服词汇外问题，提升描述的信息量和准确性。其意义在于为新闻图像描述这一细分领域设立了新的研究标准，促进了语言与视觉交叉学科的深入探索。

实际应用

在实际应用中，Visual News数据集可支持自动化新闻内容生成系统，辅助媒体机构快速为新闻图像添加精准描述。其多源新闻机构的数据构成使得模型能够适应不同风格的描述需求，提升内容生产的效率和质量。此外，该数据集还可用于虚假新闻检测、摘要生成等自然语言处理任务，为新闻行业的智能化转型提供数据基础和技术支撑。

数据集最近研究