Comparative Media Dataset

github2024-06-25 更新2024-06-27 收录

下载链接：

https://github.com/Digicomlab/Comparative-Media-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Comparative Media Dataset包含来自90个参与国家的顶级媒体的文章，旨在通过比较分析跨多种语言和国家的新闻内容，为传播学者提供一个可访问的全球性新闻内容数据库。数据集不包含实际文章内容，而是提供指向Common Crawl的链接，使用户能够从该开放存取的网页爬取数据中提取文本。

The Comparative Media Dataset contains articles from top-tier media outlets across 90 participating countries. It is designed to provide communication scholars with an accessible global news content database by conducting comparative analyses of news content spanning multiple languages and national contexts. The dataset does not include the actual article content; instead, it provides links to Common Crawl, enabling users to extract text from this open-access web crawling dataset.

创建时间：

2024-06-25

原始信息汇总

比较媒体数据集

数据集概述

比较媒体数据集包含来自90个参与国家顶级媒体的文章内容，这些国家参与了2017-2022年联合欧洲价值观调查/世界价值观调查数据集。为了规避传播受版权保护材料的限制，数据集将不包含文章的实际内容，而是包含指向Common Crawl（一个开放的网络爬虫数据存储库）的链接。将开发一个软件包来从Common Crawl数据文件中提取文本。

时间线

2023年10月1日：邀请贡献标注变量
2023年11月15日：完成众包标注
2024年1月15日（暂定）：数据集发布

团队成员

调查人员

Justin Chun-ting Ho
Marthe Möller
Joanna Strycharz
Anne Kroon

学生助理

Huo Qiru
Zhu Dongdong

资金支持

该项目由阿姆斯特丹传播研究学院的中型合作研究资助支持。

搜集汇总

数据集介绍

构建方式

在构建Comparative Media Dataset时，研究团队精心选择了来自90个参与国家的主要新闻媒体，这些国家涵盖了Joint European Values Survey/World Values Survey 2017-2022 Dataset的调查范围。为规避版权问题，数据集不直接包含新闻内容，而是通过链接指向Common Crawl这一开放的网络爬虫数据仓库。此外，团队开发了专用软件包，用于从Common Crawl数据文件中提取文本，确保数据的合法性和可访问性。

特点

Comparative Media Dataset的显著特点在于其跨语言和跨国家的广泛覆盖，为比较媒体研究提供了前所未有的资源。数据集不仅包括欧美国家的新闻内容，还特别关注非西方国家的媒体，弥补了现有研究在地域上的局限性。此外，通过众包注释的方式，数据集包含了丰富的语义信息，使得计算分析方法能够更深入地挖掘新闻内容的多样性和复杂性。

使用方法

使用Comparative Media Dataset时，研究者可以通过提供的软件包从Common Crawl中提取所需的新闻文本，并结合数据集中的注释信息进行分析。数据集的开放性和多样性使其适用于多种研究场景，包括但不限于媒体比较研究、文化分析和政治传播研究。研究者应遵循数据集的使用指南，确保数据的正确提取和分析，以最大化其研究价值。

背景与挑战

背景概述

在传播科学领域，对新闻文章、在线评论、企业新闻稿和议会问题的文本内容分析一直是核心研究方向。传统上，新闻文章可通过LexisNexis等订阅数据库获取，但这些数据库通常禁止批量下载，使得大规模获取媒体内容变得繁琐。尽管直接从新闻网站采集文章是可行的，但为每个网站维护网络爬虫需要大量时间和精力。近年来，一些项目如INCA和Comparative Agendas Project致力于创建大规模比较新闻数据集，但这些项目主要集中在欧洲和美国的内容，限制了非西方背景下的比较研究。因此，创建一个包含全球代表性报纸文章的注释数据库，对于促进跨语言和国家的比较分析具有重要意义。

当前挑战

Comparative Media Dataset面临的挑战包括：首先，从多个国家的顶级新闻媒体中收集文章需要巨大的努力，尤其是在非西方背景下。其次，由于版权限制，数据集无法直接包含文章内容，而是通过链接至Common Crawl的开放存取数据来规避这一问题，这需要开发专门的软件包来提取文本。此外，数据集的构建涉及复杂的注释过程，需要确保注释的一致性和准确性。最后，数据集的发布时间表和注释变量的确定也需要精确管理，以确保数据集的及时性和可用性。

常用场景

经典使用场景

在传播科学领域，文本内容的分析，如新闻文章、在线评论、企业新闻稿和议会问题，是研究的核心。Comparative Media Dataset通过提供来自90个参与国家顶级媒体的链接，使得研究者能够进行跨语言和跨国家的比较分析。这一数据集的经典使用场景包括对不同文化背景下新闻内容的比较研究，以及对全球媒体传播趋势的深入探讨。

衍生相关工作

基于Comparative Media Dataset，许多相关研究工作得以展开。例如，有研究者利用该数据集进行跨文化传播效果的比较分析，探讨不同文化背景下新闻传播的影响力。此外，还有研究聚焦于全球媒体内容的多样性，分析不同国家媒体在报道同一事件时的差异，从而揭示全球媒体的多样性和复杂性。

数据集最近研究