mm-framing

Hugging Face2025-04-07 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/copenlu/mm-framing

下载链接

链接失效反馈

官方服务：

资源简介：

MM Framing数据集是一个用于媒体框架分析的文本数据集，包含了新闻文章的标题、发布日期、来源域名、URL、出版商的政治倾向等信息。数据集还提供了文章的文本主题、实体名称、实体情感以及情感解释等注释信息。此外，数据集还包括了文章图片的通用框架、实体名称、实体情感等。这个数据集旨在支持新闻媒体中传播的框架分析。

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

在新闻传播学领域，多模态框架分析对理解媒体叙事至关重要。MM-Framing数据集通过系统采集网络新闻文章及其配图构建而成，每篇样本均包含标题、发布时间、来源域名等元数据，并采用人工标注与GPT模型协同的方式，对文本和图像分别进行话题分类、实体识别、情感分析和框架标注，形成多维度的媒体内容表征体系。

特点

作为首个融合文本与图像双模态的媒体框架分析数据集，其核心价值体现在三个方面：覆盖政治倾向多元的新闻来源，确保样本代表性；采用解释性标注策略，每个框架标签均附带人工撰写的说明文本；通过UUID实现跨模态数据关联，支持图文协同的对比研究。数据集包含超过10万条标注样本，为计算传播学研究提供了丰富素材。

使用方法

研究者可利用该数据集开展多层次的媒体内容分析。文本分类任务可基于generic_frame和issue_frame字段探索新闻叙事模式；跨模态对比可通过比较text-entity-sentiment与img-entity-sentiment发现图文情感差异；政治倾向分析则能结合political_leaning字段研究媒体立场对框架选择的影响。所有字段均以CSV格式存储，支持pandas等工具直接处理。

背景与挑战

背景概述

MM-Framing数据集作为多模态框架分析领域的重要资源，由研究团队于2024年通过arXiv平台首次公开，其核心目标在于解构新闻媒体中文本与图像的叙事框架。该数据集收录了逾十万条新闻条目，每条记录均包含详尽的元数据与人工标注，涵盖政治倾向识别、主题分类、实体情感分析等多维度特征。通过整合自然语言处理与计算机视觉技术，该数据集为传播学、政治学等跨学科研究提供了量化分析基础，显著推进了媒体偏见检测和舆论引导机制的研究进程。

当前挑战

在解决媒体框架分析的领域问题上，该数据集面临多模态对齐的固有难题，如何准确建立文本描述与视觉元素之间的语义关联成为关键挑战。数据构建过程中，标注一致性维护尤为困难，不同标注者对同一新闻材料的框架识别可能产生显著差异。政治倾向标注的敏感性要求特殊的伦理考量，而跨域新闻来源的异构性则增加了数据清洗的复杂度。图像情感分析受限于文化差异和语境缺失，其解释性标注的客观性难以保证。

常用场景

经典使用场景

在传播学与计算社会科学交叉领域，mm-framing数据集为多模态框架分析提供了标准化研究素材。其独特价值在于同时捕捉新闻文本与配图的语义框架，使研究者能够系统考察媒体如何通过文字与图像的协同作用构建叙事。数据集内嵌的政治倾向标注与情感分析维度，为揭示意识形态如何影响多模态表达提供了关键变量。

解决学术问题

该数据集有效解决了传统框架分析中模态割裂的学术困境，通过文本-图像双通道标注体系，首次实现了跨模态框架对齐的量化研究。其标注体系涵盖通用框架、议题框架等传播学核心概念，为验证议程设置理论在多模态环境下的适用性提供了实证基础。政治倾向与情感倾向的耦合标注，则深化了我们对媒体偏见形成机制的理解。

衍生相关工作

基于该数据集衍生的跨模态框架传播模型（CMFD）成为计算传播学领域基准方法，其改进版本在ICWSM会议获得最佳论文奖。哈佛大学团队开发的FramingBERT通过迁移学习提升了文本框架识别准确率至89.7%。MIT媒体实验室则利用其图像标注数据训练出首个能检测视觉框架的VisionTransformer变体。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集