five

3DLNews

收藏
arXiv2024-08-09 更新2024-08-15 收录
下载链接:
https://github.com/wm-newslab/3DLNews
下载链接
链接失效反馈
资源简介:
3DLNews是由威廉与玛丽学院创建的一个涵盖1996年至2024年的美国地方新闻文章数据集。该数据集包含近100万条URL,来自超过14,000个地方报纸、电视台和广播电台,覆盖美国所有50个州。数据集通过从Google和Twitter搜索结果中抓取并经过多步骤过滤和丰富元数据(如新闻源的地理坐标、发布日期等)创建。3DLNews主要用于研究美国地方新闻的全国化、媒体偏见、地方新闻荒漠化及社区理解等领域,旨在解决地方新闻报道的多样性和深度问题。

3DLNews is a U.S. local news article dataset spanning from 1996 to 2024, created by the College of William & Mary. This dataset contains nearly 1 million URLs sourced from over 14,000 local newspapers, television stations and radio stations, covering all 50 U.S. states. The dataset was constructed by scraping results from Google and Twitter searches, followed by multi-step filtering and metadata enrichment (e.g., geographic coordinates of news sources, publication dates, etc.). 3DLNews is primarily used for research on topics such as the nationalization of U.S. local news, media bias, local news desertification, and community understanding, aiming to address issues of diversity and depth in local news coverage.
提供机构:
威廉与玛丽学院
创建时间:
2024-08-09
原始信息汇总

3DLNews: A Three-decade Dataset of US Local News Articles

1. 关于数据集

3DLNews是一个包含从1996年到2024年美国地方新闻文章的新颖数据集。它包含了来自美国所有50个州的超过14,000个地方报纸、电视台和广播电台的近100万条URL(及HTML文本),提供了美国地方新闻景观的广泛快照。数据集通过抓取Google和Twitter搜索结果收集,并采用多步骤过滤过程去除非新闻文章链接,并丰富了数据集的元数据,如新闻媒体组织的名称和地理坐标、文章发布日期等。

2. 3DLNews数据集

2.1 地方新闻媒体数据集

我们使用了Local Memory Project(LMP)的美国地方新闻数据集的扩展版本来获取地方新闻媒体。LMP的数据集包括5,993个地方报纸网站、2,539个电视台和1,061个广播电台,主要从thepaperboy.com提取于2016年。我们通过爬取和抓取thepaperboy.com、web.archive.org、usnpl.com、50states.com和einpresswire.com扩展了它。

表1: 美国地方新闻媒体数据集

媒体类型 网站数量
报纸 9,441
广播 2,449
电视台 886
广播 1,310
总计 14,086

2.2 数据过滤

我们通过以下步骤去除非新闻文章链接:

  • 步骤1: 解引用所有URL以解析重定向并检索返回HTTP 200响应代码的最终URL。
  • 步骤2: 删除域名不在我们地方新闻媒体数据集中的链接。
  • 步骤3: 将所有URL转换为小写,丢弃尾部斜杠,并删除重复的URL。
  • 步骤4: 删除路径深度为零的URL,通常代表主页。
  • 步骤5: 保留路径深度较低(如<3)且包含流行单词边界分隔符(如‘-’,‘_’,或‘.’)的新闻文章URL,并保留所有路径深度≥3的URL。

表3: 3DLNews: 新闻文章URL数量(非新闻URL排除)

类型 Google Twitter 总计
报纸 502,530 64,886 618,686
广播 52,925 555 64,658
电视台 62,727 22,675 105,008
广播 110,494 7,783 130,144
总计 728,676 95,899 824,575

2.3 数据丰富

我们通过添加属性来增强3DLNews中新闻文章URL的实用性。

表4: 3DLNews中新闻文章URL的属性

属性 描述 示例
link 地方新闻文章的URL https://www.adn.com/alaska-news/article/womans-death-montana-has-eerie-echoes-yakutat-killing/2009/01/23/
html_filename 文章的HTML内容文件名 556a766d0ee6d588632f30b662ada710.html
publication_date 文章发布日期 01/23/2009
title 文章标题 Womans death in Montana has eerie echoes of Yakutat killing - Anchorage Daily News
media_name 地方媒体组织名称 Alaska Dispatch News
media_type 媒体源类型 newspaper
location 媒体组织的位置 {"state": "Alaska", "city": "Anchorage", "longitude": -149.87828, "latitude": 61.216799}
media_metadata 新闻媒体的更多信息 详细信息见示例
source 新闻文章提取的平台 Google
source_metadata 平台抓取的更多信息 详细信息见示例
response_code 链接的GET请求返回的响应代码 200
expanded_url 重定向链接的最终目标URL None

2.4 数据格式

数据集的结构如下:

├── Google │ ├── 1-Newspapers │ │ ├── state │ │ ├── preprocessed_data │ │ ├── filtered_data │ │ └── HTML │ ├── 2-Radio │ ├── 3-TV │ └── 4-Broadcast └── Twitter ├── 1-Newspapers ├── 2-Radio ├── 3-TV └── 4-Broadcast

3. 3DLNews数据集的潜在应用

  • 探索地方新闻的全国化
  • 媒体偏见分析
  • 研究美国地方新闻荒漠
  • 社区理解、趋势分析和预测
AI搜集汇总
数据集介绍
main_image_url
构建方式
3DLNews数据集的构建采取了从Google和Twitter搜索结果中抓取URL的方式,针对每个媒体网站构建搜索查询,经过多步骤的过滤过程去除非新闻链接,并 enrich 数据集,添加了诸如媒体名称、位置坐标、发布日期等 metadata信息。
特点
3DLNews数据集覆盖了1996年至2024年的美国本地新闻文章,包含了近100万个URL,涵盖了超过14,000个本地新闻媒体的网站,包括了报纸、电视和广播等类型,具有广泛的地域覆盖和长时间跨度,为研究美国本地新闻提供了丰富的资源。
使用方法
使用3DLNews数据集时,研究者可以依据数据集中的 metadata 进行地域和时间维度的分析,探究新闻内容的地理分布、时间趋势等,也可以利用数据集进行媒体偏见分析、新闻沙漠现象研究等应用,为新闻学、传播学等领域的研究提供了支持。
背景与挑战
背景概述
3DLNews是一款包含美国地方新闻文章的数据集,时间跨度从1996年至2024年。该数据集由Gangani Ariyarathne和Alexander C. Nwala主导,包含了近100万个URL,涵盖了超过14000个地方报纸、电视台和广播电台的网站。3DLNews的构建旨在填补现有新闻文章数据集的空白,特别是关注地方新闻的数据集。它的广地域和长时间跨度的特点使其成为研究美国及地方媒体生态的重要资源。
当前挑战
在构建3DLNews的过程中,研究团队面临了多个挑战。首先,由于缺乏新闻文章URL的标准格式,过滤非新闻链接成为了一个挑战。其次,数据集构建过程中的数据抓取限制了可收集的URL数量。此外,数据集可能包含了已关闭新闻机构的文章,且可能遗漏了某些地区的新闻,这些都是未来工作中需要解决的问题。
常用场景
经典使用场景
3DLNews数据集收录了美国各地近30年的地方新闻,其经典使用场景在于研究者可以借此深入探究美国地方新闻的变迁,分析新闻内容的地理和时序分布特征,为进一步的新闻学研究提供了丰富的素材。
衍生相关工作
基于3DLNews数据集,衍生出了对地方新闻国家化趋势、媒体偏见、新闻沙漠现象等多方面的研究工作,推动了新闻传播学领域的学术讨论和实践探索。
数据集最近研究
最新研究方向
3DLNews数据集的近期研究方向主要聚焦于探索美国本地新闻的全国化趋势、媒体偏见分析、研究美国本地新闻荒漠现象以及社区理解。这些研究有助于量化本地新闻全国化的程度,评估媒体偏见对本地媒体信任度的影响,分析新闻荒漠的形成原因,以及通过本地媒体的视角深入理解不同社区的生活条件和公众关切。
相关研究论文
  • 1
    3DLNews: A Three-decade Dataset of US Local News Articles威廉与玛丽学院 · 2024年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作