five

3DLNews|新闻数据数据集|地方新闻研究数据集

收藏
arXiv2024-08-09 更新2024-08-15 收录
新闻数据
地方新闻研究
下载链接:
https://github.com/wm-newslab/3DLNews
下载链接
链接失效反馈
资源简介:
3DLNews是由威廉与玛丽学院创建的一个涵盖1996年至2024年的美国地方新闻文章数据集。该数据集包含近100万条URL,来自超过14,000个地方报纸、电视台和广播电台,覆盖美国所有50个州。数据集通过从Google和Twitter搜索结果中抓取并经过多步骤过滤和丰富元数据(如新闻源的地理坐标、发布日期等)创建。3DLNews主要用于研究美国地方新闻的全国化、媒体偏见、地方新闻荒漠化及社区理解等领域,旨在解决地方新闻报道的多样性和深度问题。
提供机构:
威廉与玛丽学院
创建时间:
2024-08-09
原始信息汇总

3DLNews: A Three-decade Dataset of US Local News Articles

1. 关于数据集

3DLNews是一个包含从1996年到2024年美国地方新闻文章的新颖数据集。它包含了来自美国所有50个州的超过14,000个地方报纸、电视台和广播电台的近100万条URL(及HTML文本),提供了美国地方新闻景观的广泛快照。数据集通过抓取Google和Twitter搜索结果收集,并采用多步骤过滤过程去除非新闻文章链接,并丰富了数据集的元数据,如新闻媒体组织的名称和地理坐标、文章发布日期等。

2. 3DLNews数据集

2.1 地方新闻媒体数据集

我们使用了Local Memory Project(LMP)的美国地方新闻数据集的扩展版本来获取地方新闻媒体。LMP的数据集包括5,993个地方报纸网站、2,539个电视台和1,061个广播电台,主要从thepaperboy.com提取于2016年。我们通过爬取和抓取thepaperboy.com、web.archive.org、usnpl.com、50states.com和einpresswire.com扩展了它。

表1: 美国地方新闻媒体数据集

媒体类型 网站数量
报纸 9,441
广播 2,449
电视台 886
广播 1,310
总计 14,086

2.2 数据过滤

我们通过以下步骤去除非新闻文章链接:

  • 步骤1: 解引用所有URL以解析重定向并检索返回HTTP 200响应代码的最终URL。
  • 步骤2: 删除域名不在我们地方新闻媒体数据集中的链接。
  • 步骤3: 将所有URL转换为小写,丢弃尾部斜杠,并删除重复的URL。
  • 步骤4: 删除路径深度为零的URL,通常代表主页。
  • 步骤5: 保留路径深度较低(如<3)且包含流行单词边界分隔符(如‘-’,‘_’,或‘.’)的新闻文章URL,并保留所有路径深度≥3的URL。

表3: 3DLNews: 新闻文章URL数量(非新闻URL排除)

类型 Google Twitter 总计
报纸 502,530 64,886 618,686
广播 52,925 555 64,658
电视台 62,727 22,675 105,008
广播 110,494 7,783 130,144
总计 728,676 95,899 824,575

2.3 数据丰富

我们通过添加属性来增强3DLNews中新闻文章URL的实用性。

表4: 3DLNews中新闻文章URL的属性

属性 描述 示例
link 地方新闻文章的URL https://www.adn.com/alaska-news/article/womans-death-montana-has-eerie-echoes-yakutat-killing/2009/01/23/
html_filename 文章的HTML内容文件名 556a766d0ee6d588632f30b662ada710.html
publication_date 文章发布日期 01/23/2009
title 文章标题 Womans death in Montana has eerie echoes of Yakutat killing - Anchorage Daily News
media_name 地方媒体组织名称 Alaska Dispatch News
media_type 媒体源类型 newspaper
location 媒体组织的位置 {"state": "Alaska", "city": "Anchorage", "longitude": -149.87828, "latitude": 61.216799}
media_metadata 新闻媒体的更多信息 详细信息见示例
source 新闻文章提取的平台 Google
source_metadata 平台抓取的更多信息 详细信息见示例
response_code 链接的GET请求返回的响应代码 200
expanded_url 重定向链接的最终目标URL None

2.4 数据格式

数据集的结构如下:

├── Google │ ├── 1-Newspapers │ │ ├── state │ │ ├── preprocessed_data │ │ ├── filtered_data │ │ └── HTML │ ├── 2-Radio │ ├── 3-TV │ └── 4-Broadcast └── Twitter ├── 1-Newspapers ├── 2-Radio ├── 3-TV └── 4-Broadcast

3. 3DLNews数据集的潜在应用

  • 探索地方新闻的全国化
  • 媒体偏见分析
  • 研究美国地方新闻荒漠
  • 社区理解、趋势分析和预测
AI搜集汇总
数据集介绍
main_image_url
构建方式
3DLNews数据集的构建采取了从Google和Twitter搜索结果中抓取URL的方式,针对每个媒体网站构建搜索查询,经过多步骤的过滤过程去除非新闻链接,并 enrich 数据集,添加了诸如媒体名称、位置坐标、发布日期等 metadata信息。
特点
3DLNews数据集覆盖了1996年至2024年的美国本地新闻文章,包含了近100万个URL,涵盖了超过14,000个本地新闻媒体的网站,包括了报纸、电视和广播等类型,具有广泛的地域覆盖和长时间跨度,为研究美国本地新闻提供了丰富的资源。
使用方法
使用3DLNews数据集时,研究者可以依据数据集中的 metadata 进行地域和时间维度的分析,探究新闻内容的地理分布、时间趋势等,也可以利用数据集进行媒体偏见分析、新闻沙漠现象研究等应用,为新闻学、传播学等领域的研究提供了支持。
背景与挑战
背景概述
3DLNews是一款包含美国地方新闻文章的数据集,时间跨度从1996年至2024年。该数据集由Gangani Ariyarathne和Alexander C. Nwala主导,包含了近100万个URL,涵盖了超过14000个地方报纸、电视台和广播电台的网站。3DLNews的构建旨在填补现有新闻文章数据集的空白,特别是关注地方新闻的数据集。它的广地域和长时间跨度的特点使其成为研究美国及地方媒体生态的重要资源。
当前挑战
在构建3DLNews的过程中,研究团队面临了多个挑战。首先,由于缺乏新闻文章URL的标准格式,过滤非新闻链接成为了一个挑战。其次,数据集构建过程中的数据抓取限制了可收集的URL数量。此外,数据集可能包含了已关闭新闻机构的文章,且可能遗漏了某些地区的新闻,这些都是未来工作中需要解决的问题。
常用场景
经典使用场景
3DLNews数据集收录了美国各地近30年的地方新闻,其经典使用场景在于研究者可以借此深入探究美国地方新闻的变迁,分析新闻内容的地理和时序分布特征,为进一步的新闻学研究提供了丰富的素材。
衍生相关工作
基于3DLNews数据集,衍生出了对地方新闻国家化趋势、媒体偏见、新闻沙漠现象等多方面的研究工作,推动了新闻传播学领域的学术讨论和实践探索。
数据集最近研究
最新研究方向
3DLNews数据集的近期研究方向主要聚焦于探索美国本地新闻的全国化趋势、媒体偏见分析、研究美国本地新闻荒漠现象以及社区理解。这些研究有助于量化本地新闻全国化的程度,评估媒体偏见对本地媒体信任度的影响,分析新闻荒漠的形成原因,以及通过本地媒体的视角深入理解不同社区的生活条件和公众关切。
相关研究论文
  • 1
    3DLNews: A Three-decade Dataset of US Local News Articles威廉与玛丽学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

NASA Exoplanet Archive

Exoplanets specifies Confirmed Planets.

kaggle 收录

Kaggle Stock Market Data

该数据集包含多个股票市场的历史数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。

www.kaggle.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录