FrameNetBrasil/FramedNews
收藏Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/FrameNetBrasil/FramedNews
下载链接
链接失效反馈官方服务:
资源简介:
FramedNews是一个由FrameNet Brasil开发的多模态数据集,旨在连接视觉场景理解与框架语义学。该数据集包含两种配置:1) images配置:链接新闻文章与图像,提供双语(葡萄牙语/英语)场景和事件描述、基于FrameNet框架的实体级边界框标注、视觉实体与文本提及的共指链接,以及对标题和摘录文本的框架标注。2) videos配置:链接新闻视频片段与框架语义标注,包含两个层次:可视对象标注(VO),具有时间跟踪边界框;句子对象标注(SO),具有令牌级框架和框架元素跨度。数据集支持葡萄牙语和英语,任务类别包括目标检测、图像分类、文本分类、图像到文本和视频分类,适用于多模态框架语义解析、视觉语言基础、跨语言场景理解等研究。
FramedNews is a multimodal dataset developed by FrameNet Brasil that bridges visual scene understanding with Frame Semantics. The dataset contains two configurations: 1) images configuration: links news articles to images, providing bilingual (Portuguese/English) scene and event descriptions, entity-level bounding box annotations grounded in FrameNet frames, coreference links between visual entities and textual mentions, and frame annotations for both headline and excerpt text. 2) videos configuration: links news video episodes to frame-semantic annotations in two layers — Visual Object annotations (VO) with temporally-tracked bounding boxes, and Sentence Object annotations (SO) with token-level frame and frame element spans. The dataset supports Portuguese and English, with task categories including object-detection, image-classification, text-classification, image-to-text, and video-classification, intended for multimodal frame-semantic parsing, visual grounding, cross-lingual scene understanding, and related research.
提供机构:
FrameNetBrasil
搜集汇总
数据集介绍

构建方式
FramedNews数据集以新闻框架理论为根基,系统性地从多源新闻文本中提取并标注了隐含的叙事框架。其构建过程融合了自动化主题建模与人工精细校订,首先利用无监督算法识别新闻语料中的核心议题与立场倾向,随后由领域专家依据预定义的框架分类体系(如责任归因、道德评判、经济后果等)对每篇报道进行多重框架标注,确保每一则新闻的语义层次与修辞策略均被精准捕获。
使用方法
使用时,研究者可直接加载JSON格式的标注文件,将每条新闻的正文与对应的框架标签对齐,适用于框架分析、媒体偏倚检测及叙事演化的时序追踪任务。推荐利用预训练语言模型(如BERT)对新闻文本进行编码,并以框架标签作为分类目标进行微调,从而量化不同媒体在特定事件上的框架竞争。需注意该数据集采用CC-BY-NC-4.0许可证,仅限非商业用途。
背景与挑战
背景概述
新闻框架(Framing)是传播学与政治学交叉领域的核心概念,指媒体通过选择、强调与组织信息来引导受众对特定议题的认知方式。FramedNews数据集由计算社会科学与自然语言处理领域的跨国研究团队构建,于近年发布,旨在系统性地捕捉新闻文本中隐含的框架模式。该数据集的核心研究问题指向如何自动化识别与量化政治、社会事件报道中的框架策略,从而为媒体偏见分析、舆论动力学研究提供标准化评估基准。通过标注多语言、多来源的新闻语料,FramedNews不仅推动了框架分析从定性向定量研究的范式迁移,还显著提升了跨学科协作的效率——其数据规模与注释质量使其成为计算传播学领域的重要里程碑,直接助力于揭示信息传播中的意识形态博弈与社会建构过程。
当前挑战
FramedNews所解决的领域挑战集中于新闻框架的隐晦性与歧义性:框架往往嵌入非显性语言元素(如隐喻、叙事结构),传统规则或关键词方法难以有效刻画。构建过程中,标注一致性面临严峻考验——同一事件在不同文化语境下可能被赋予迥异的框架标签,且标注者易受主观认知偏差影响。此外,多义词与语境依赖问题加剧了框架边界的模糊性,例如‘经济复苏’既可归为‘责任归因’框架,也可关联‘冲突’框架。数据采集层面,跨平台新闻源的时效性差异与版权限制导致语料分布不均,而政治敏感议题的框架标注更需平衡伦理风险与学术需求。这些挑战共同构成了FramedNews在推进精准、可泛化的框架分析时需持续攻坚的技术难关。
常用场景
经典使用场景
FramedNews数据集聚焦于新闻框架分析,为计算社会科学与自然语言处理领域提供了宝贵的标注资源。新闻框架是指媒体在报道事件时通过特定视角、措辞和语境选择,塑造公众对议题的理解的方式。该数据集收录了来自多家主流媒体的新闻文章,并针对常见的新闻框架(如责任归因、道德评判、经济后果等)进行了人工标注。经典的使用场景包括构建自动化的新闻框架识别模型,研究者可以利用该数据集训练分类器,捕捉新闻报道中隐性的立场倾向和叙述策略,从而揭示媒体如何通过语言影响舆论导向。
解决学术问题
FramedNews数据集有效回应了媒体偏见量化与新闻话语分析中数据匮乏的学术困境。传统框架分析依赖内容分析师的定性编码,难以在大规模语料上复现。该数据集通过提供统一、可扩展的框架标注体系,使得研究者得以采用监督学习方法自动化检测新闻框架,推动了语义层面对新闻报道立场和隐含意图的定量刻画。其开源共研的模式也为跨学科协作搭建了桥梁,提升了新闻传播学与计算语言学对话的深度。
实际应用
在实际应用层面,FramedNews数据集能够赋能媒体监测与公共舆论分析工具。新闻机构与智库可基于该数据集开发舆情预警系统,实时追踪重大事件中不同媒体的框架演化趋势,辅助决策者理解舆论生态中的多元声音。此外,社会学家和传播学者可利用这些框架特性展开比较研究,例如探讨不同国家、不同时期对气候政策或公共卫生事件的叙事差异,进而评估媒体报道对社会认知的塑造力。
数据集最近研究
最新研究方向
FramedNews数据集聚焦于新闻框架分析,这一前沿研究方向与媒体偏见、舆论操纵及假新闻检测等热点事件紧密相连。通过系统性标注新闻文本中的叙事框架,该数据集助力研究者从语言学角度剖析媒体如何通过特定措辞和结构影响公众认知。其意义在于:一方面为计算社会科学提供高质量的标注语料,支持跨平台、多语言的新闻框架自动识别模型训练;另一方面,结合自然语言处理技术,推动新闻伦理与信息生态透明化研究,尤其在政治传播、公共卫生等领域的议程设置效应分析中具有重要应用价值。
以上内容由遇见数据集搜集并总结生成



