Media Frames Corpus v2.0

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/dallascard/media_frames_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

媒体框架语料库（版本2.0）包含了一系列媒体框架注释，以及获取相应新闻文章的脚本。该数据集提供了所有文章的元数据，以及所有注释文本段的开始和结束（及其相关的框架维度）。所有这些信息都存储在一个JSON文件中，每个问题（移民、吸烟和同性婚姻）都有一个文件。

The Media Framing Corpus (Version 2.0) encompasses a collection of media framing annotations along with scripts for retrieving corresponding news articles. This dataset furnishes metadata for all articles, as well as the start and end points of all annotated text segments (along with their associated framing dimensions). All this information is encapsulated within a JSON file, with a separate file dedicated to each issue (immigration, smoking, and same-sex marriage).

创建时间：

2015-06-17

原始信息汇总

数据集概述

数据集名称

Media Frames Corpus v2.0

数据集内容

包含所有文章的元数据以及所有标注文本段的开始和结束（及相关的框架维度）。
所有信息存储在annotations/目录下的单个JSON文件中，每个问题（移民、吸烟、同性婚姻）对应一个文件。

数据获取

需要访问Lexis-Nexis学术数据库以获取实际文章。
使用Python脚本get_news_articles.py配合配置文件（如immigration_config.json）下载文章。
文章下载后，需运行parse_LN_to_JSON.py和process_JSON_files.py处理数据，最后使用combine_text_and_annotations.py合并文本和标注。

数据集特点

版本2.0的标注完全取代了版本1.0的标注。
新增了文章整体语调（支持、中立、反对）的标注。
标注者解决了所有关于文章主要框架和语调的冲突。

引用信息

使用此数据集时，请引用Card D等人的论文，该论文发表于ACL 2015。

联系方式

如有问题或发现错误，请联系Dallas Card（dcard@cmu.edu）。

搜集汇总

数据集介绍

构建方式

Media Frames Corpus v2.0的构建过程涉及多个步骤，首先通过Lexis-Nexis学术数据库获取新闻文章的元数据和标注信息，这些信息存储在JSON文件中。随后，使用Python脚本和Selenium模块自动化下载具体文章，并通过一系列处理脚本将下载的文章解析为结构化数据，最终将标注信息与文章内容整合，生成包含标注和文本的单一JSON文件。

使用方法

使用该数据集时，用户需具备Python 2.7环境及Selenium模块，并需访问Lexis-Nexis学术数据库。通过运行提供的Python脚本，用户可以自动化下载和解析新闻文章，最终生成包含标注和文本的JSON文件。用户可根据需要修改脚本以适应不同的Lexis-Nexis访问地址，并可根据标注信息提取特定的新闻片段进行分析。

背景与挑战

背景概述

Media Frames Corpus v2.0是由卡内基梅隆大学的Dallas Card等人创建的一个新闻媒体框架分析数据集，首次发布于2015年，并在2016年进行了更新。该数据集的核心研究问题在于通过分析新闻文章中的框架维度，揭示媒体在报道特定社会议题（如移民、吸烟和同性婚姻）时的立场和倾向。其主要贡献在于为计算语言学和媒体研究领域提供了一个标准化的数据集，帮助研究人员更好地理解媒体框架对公众舆论的影响。

当前挑战

Media Frames Corpus v2.0在构建过程中面临了多个挑战。首先，数据集的构建依赖于Lexis-Nexis学术数据库，这要求用户具备访问权限，并且下载过程耗时较长。其次，数据集的标注涉及复杂的框架维度分析，需要人工标注并解决冲突，确保标注的一致性和准确性。此外，数据集的版本更新带来了数据格式的变化，增加了用户的使用难度。最后，由于Lexis-Nexis界面的变化，该数据集的原始获取方式已被废弃，进一步增加了获取和使用的复杂性。

常用场景

经典使用场景

Media Frames Corpus v2.0 数据集的经典使用场景主要集中在新闻媒体内容的框架分析上。该数据集通过标注新闻文章中的特定文本段落，揭示了不同议题（如移民、吸烟和同性婚姻）在媒体报道中的框架维度。研究者可以利用这些标注信息，分析媒体如何通过特定的框架来塑造公众对这些议题的认知，从而深入探讨媒体在公共舆论形成中的作用。

解决学术问题

该数据集解决了媒体框架分析中的关键学术问题，即如何量化和识别媒体报道中的框架维度。通过提供详细的文本标注和框架维度信息，研究者能够系统地研究媒体如何通过不同的框架影响公众意见。这一数据集的意义在于，它为媒体效应研究提供了实证基础，推动了计算社会科学和新闻学领域的交叉研究，具有重要的学术价值。

实际应用

在实际应用中，Media Frames Corpus v2.0 数据集可用于媒体监测、舆论分析和公共政策制定。例如，政府和非政府组织可以利用该数据集分析特定议题在不同媒体中的报道框架，从而制定更有针对性的公共传播策略。此外，新闻机构也可以使用该数据集来评估其报道的框架是否符合公众利益，进而优化新闻内容的生产。

数据集最近研究