N24News

Name: N24News
Creator: 代尔夫特理工大学
Published: 2022-06-06 14:51:28
License: 暂无描述

arXiv2022-06-06 更新2024-06-21 收录

下载链接：

https://github.com/billywzh717/N24News

下载链接

链接失效反馈

官方服务：

资源简介：

N24News是由代尔夫特理工大学创建的一个大型多模态新闻数据集，包含来自纽约时报的61,218条新闻，涵盖24个类别。该数据集每条新闻都包含文本和图像信息，旨在支持多模态新闻分类研究。数据集通过纽约时报API收集，经过筛选和分类，确保了数据的质量和多样性。N24News特别适用于研究多模态新闻分类，尤其是在提高分类准确性和理解图像与文本之间的互补性方面。

N24News is a large-scale multimodal news dataset developed by Delft University of Technology. It contains 61,218 news articles from The New York Times, spanning 24 categories. Each news entry in the dataset includes both textual content and visual information, aiming to support research on multimodal news classification. The dataset was collected via the New York Times API, followed by filtering and categorization to ensure its quality and diversity. N24News is particularly suitable for research on multimodal news classification, especially for improving classification accuracy and understanding the complementarity between images and text.

提供机构：

代尔夫特理工大学

创建时间：

2021-08-30

搜集汇总

数据集介绍

构建方式

在新闻分类研究领域，传统数据集多聚焦于文本特征，忽视了图像信息对新闻理解的补充价值。N24News数据集的构建依托《纽约时报》这一权威新闻源，通过其开放的API接口，系统采集了2010年至2020年间发布的新闻网页。构建过程中，研究团队剔除了视频新闻，仅保留图文并茂的文本新闻，并为每篇新闻选取最具代表性的一幅图像，最终形成了涵盖24个新闻类别的6万条图文对。为确保数据平衡，每个类别最多收录3000个样本，并按照8:1:1的比例随机划分为训练集、验证集和测试集，整个过程无需人工标注，保证了数据的客观性与规模性。

特点

N24News的显著特征在于其多模态属性与精细的类别体系。该数据集突破了传统新闻数据集仅包含文本的局限，首次大规模整合了新闻图像与文本信息，为多模态新闻分类研究提供了坚实基础。其24个新闻类别覆盖了健康、科技、艺术、体育等日常生活的主要领域，类别划分细致且未进行合并，保留了真实的新闻分类场景。数据样本结构完整，每篇新闻均包含类别标签、标题、摘要、正文、图像及图像描述，文本长度从标题到正文逐级递增，这种层次化的信息组织便于研究图像对不同长度文本分类任务的增益效应。

使用方法

该数据集主要用于推动多模态新闻分类方法的研究与应用。使用者可基于其图文对数据，构建融合视觉与文本特征的分类模型，探索异构信息融合的最佳策略。典型的使用流程包括：分别利用预训练的视觉模型（如Vision Transformer）和文本模型（如RoBERTa）提取图像与文本的特征表示；随后通过特征拼接、加权求和或注意力机制等方法进行多模态特征融合；最终通过多层感知机等分类器进行新闻类别预测。实验表明，融合图像特征能显著提升短文本新闻的分类准确率，尤其在标题等信息有限的场景下，图像提供了关键的补充信息。研究者还可利用该数据集分析多模态分类器中子分类器的性能关联，并设计更有效的融合网络以优化分类效果。

背景与挑战

背景概述

随着数字新闻时代的到来，新闻内容日益呈现多模态特征，图像与文本的融合成为提升新闻分类准确性的关键。N24News数据集由荷兰代尔夫特理工大学的研究团队于2022年构建，旨在解决传统新闻分类研究中过度依赖文本特征而忽视图像信息的问题。该数据集源自《纽约时报》2010年至2020年的新闻报道，涵盖24个新闻类别，包含超过6万条图文对，为多模态新闻分类研究提供了首个大规模、高质量的基准资源。其创新性在于首次将真实新闻的图文信息系统整合，推动了多模态方法在新闻分析领域的应用，弥补了现有数据集如20NEWS和AG News仅关注文本的局限性。

当前挑战

N24News数据集面临的核心挑战在于多模态新闻分类的复杂性。首先，在领域问题层面，如何有效融合图像与文本的异构特征以提升分类精度成为关键难题，现有图像分类模型（如基于ImageNet训练的模型）难以捕捉新闻图像中的事件语境，例如同一物体在不同新闻场景中可能承载迥异的社会含义。其次，在数据集构建过程中，研究者需克服数据平衡与质量控制的挑战：从海量网页中筛选出兼具图文且类别均衡的新闻条目，并排除视频内容，同时确保图像与文本的语义关联性，这一过程涉及复杂的API调用与数据清洗技术。此外，数据集中相似类别（如戏剧与电影）的区分高度依赖图像提供的视觉线索，这对多模态模型的细粒度理解能力提出了更高要求。

常用场景

经典使用场景

在新闻分类研究领域，N24News数据集为多模态分类任务提供了标准化的评估基准。该数据集源自《纽约时报》，涵盖24个新闻类别，每个样本均包含文本与图像信息，使得研究者能够系统探索图文融合对分类性能的提升作用。通过构建多任务多模态网络，实验表明结合图像特征可使分类准确率最高提升8.11%，尤其在文本信息不足时，图像能有效补充语义空缺，为多模态新闻分析奠定了数据基础。

衍生相关工作

基于N24News衍生的经典工作主要集中在多模态融合方法的创新上。研究者受其图文互补机制的启发，开发了注意力加权融合、跨模态Transformer等新型网络架构。部分工作进一步探索了事件图像分类这一子领域，针对新闻图像中隐含的上下文信息设计专用特征提取器。此外，该数据集也被用于验证视觉-语言预训练模型在新闻领域的迁移能力，推动了如CLIP等通用模型在垂直场景中的适应性研究。

数据集最近研究