iNews

Name: iNews
Creator: 剑桥大学
Published: 2025-03-05 18:09:53
License: 暂无描述

arXiv2025-03-05 更新2025-03-07 收录

下载链接：

http://arxiv.org/abs/2503.03335v1

下载链接

链接失效反馈

官方服务：

资源简介：

iNews是一个大规模的多模态数据集，由剑桥大学创建，专门捕捉个人对新闻标题的主观情感反应。该数据集包含来自291名英国不同地理区域的参与者在Facebook上对2899个主要英国媒体新闻帖的注释，注释内容涵盖情感维度评分、离散情绪分类、内容相关性判断、分享可能性以及模态重要性评分等。此外，还收集了全面的标注者特征信息，这些信息能够解释15.2%的注释方差，超过了现有的NLP数据集。iNews数据集将有助于推动大型语言模型个性化、主观性、情感计算和个人行为模拟等领域的研究。

iNews is a large-scale multimodal dataset created by the University of Cambridge, specifically designed to capture individuals' subjective emotional responses to news headlines. This dataset contains annotations from 291 participants across different geographical regions in the UK on 2899 news posts from major UK media outlets on Facebook. The annotations cover emotional dimension scoring, discrete emotion classification, content relevance judgment, sharing likelihood, and modality importance scoring, among others. In addition, comprehensive annotator characteristic information is collected, which can explain 15.2% of the annotation variance, outperforming existing NLP datasets. The iNews dataset will facilitate research in fields such as large language model (LLM) personalization, subjectivity, affective computing, and individual behavior simulation.

提供机构：

剑桥大学

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

iNews数据集的构建过程分为两个阶段。首先，通过CrowdTangle平台收集了来自主要英国媒体机构的2,899篇多模态Facebook新闻帖子，涵盖了从2024年英国大选和巴黎奥运会前后的不同时间段。其次，招募了291名来自英国不同地区的参与者，他们提供了关于每个帖子的多方面标注，包括效价、唤醒度、优势、离散情绪、内容相关性判断、分享可能性和模态重要性评分（文本、图像或两者）。此外，还收集了全面的标注者个人信息，包括人口统计学、个性、媒体信任度和消费模式，这些信息解释了15.2%的标注差异。

特点

iNews数据集的主要特点是它明确地捕捉了个人对新闻标题的主观情感反应。它包含了来自291名人口统计上多样化的英国参与者的标注，这些参与者对来自主要英国媒体机构的2,899篇多模态Facebook新闻帖子进行了标注。每个帖子的标注包括效价、唤醒度、优势、离散情绪、内容相关性判断、分享可能性和模态重要性评分。此外，还收集了全面的标注者个人信息，包括人口统计学、个性、媒体信任度和消费模式，这些信息解释了15.2%的标注差异。

使用方法

使用iNews数据集的方法包括情感计算研究、大型语言模型个性化、主观现象处理和个体级行为模拟。情感计算研究人员可以利用该数据集来模拟情感识别，同时考虑个体差异。大型语言模型开发者可以利用该数据集来推进个性化研究和主观现象处理。个体级行为模拟研究人员可以利用该数据集来模拟个体级信息处理。社会计算学者可以利用该数据集来研究内容呈现中的人口统计效应。AI对齐研究人员可以利用该数据集来研究人类群体中偏好的多样性。

背景与挑战

背景概述

情感识别作为自然语言处理（NLP）中的一个重要领域，长久以来，大多数方法都忽略了情感体验的主观性。现有的情感识别数据集往往依赖于聚合标签，这些标签掩盖了个人情感反应的个体差异。为了解决这一问题，Hu和Collier等人于2025年创建了一个名为iNews的新数据集，旨在明确捕捉个人对新闻标题的主观情感反应。该数据集由来自英国291位人口统计多样化的参与者在主要英国新闻来源的2899个多模态Facebook新闻帖子上的注释组成，平均每个样本有5.18个注释者。对于每个帖子，注释者提供多方面的标签，包括效价、唤醒、优势、离散情绪、内容相关性判断、分享可能性和模态重要性评分（文本、图像或两者）。此外，我们还收集了全面的注释者个人资料信息，包括人口统计、个性、媒体信任度和消费模式，这些信息解释了15.2%的注释方差，高于现有的NLP数据集。纳入这些信息后，零样本预测的准确率提高了7%，即使有32个样本，这种益处仍然存在。iNews将增强大型语言模型（LLM）个性化、主观性、情感计算和个人层面行为模拟的研究。

当前挑战

iNews数据集面临着一些挑战。首先，它解决了一个领域问题，即如何捕捉个人对新闻标题的主观情感反应。现有的情感识别数据集通常依赖于聚合标签，这些标签掩盖了个人情感反应的个体差异。其次，在构建过程中，研究人员遇到了一些挑战。例如，如何确保注释者的人口统计和地理多样性，以及如何确保注释的质量。此外，该数据集仅限于英国注释者和英国新闻来源，这可能限制了其在其他文化和政治背景下的适用性。为了解决这些挑战，未来的研究可以考虑使用其他文化背景的注释者，并收集来自不同国家和地区的新闻数据。此外，未来的研究可以探索使用生理测量（例如，皮肤电导率、面部表情）或三角测量方法来增强情感测量的有效性。

常用场景

经典使用场景

iNews 数据集主要用于研究新闻内容对个体情感反应的影响，特别关注个体差异在情感反应中的作用。数据集包含了来自291名英国参与者的注释，这些参与者对来自主要英国媒体的2899条多模态Facebook新闻帖子进行了标注，每条帖子平均有5.18名标注者。标注内容包括效价、唤起度、支配度、离散情绪、内容相关性判断、分享可能性和模态重要性评分（文本、图像或两者）。此外，我们还收集了全面的标注者个人资料信息，包括人口统计学、性格、媒体信任和消费模式，这些信息解释了15.2%的标注差异 - 高于现有的NLP数据集。将个人资料信息纳入其中，在零样本预测中实现了7%的准确率提升，即使在32样本的情况下仍然有益。iNews将增强大型语言模型（LLM）个性化、主观性、情感计算和个人层面行为模拟的研究。

衍生相关工作

iNews 数据集衍生了多个相关的工作，包括但不限于：1. 基于iNews数据集的情感识别模型，这些模型能够更准确地识别个体对新闻的情感反应；2. 基于iNews数据集的情感计算系统，这些系统能够模拟人类情感反应，用于人机交互、虚拟现实等领域；3. 基于iNews数据集的个体行为模拟模型，这些模型能够预测个体在特定情境下的行为。这些相关工作推动了情感计算、个体行为模拟等领域的发展，并为开发更智能、更人性化的系统提供了重要的数据和技术支持。

数据集最近研究