3DLNews|新闻数据数据集|地方新闻研究数据集
收藏3DLNews: A Three-decade Dataset of US Local News Articles
1. 关于数据集
3DLNews是一个包含从1996年到2024年美国地方新闻文章的新颖数据集。它包含了来自美国所有50个州的超过14,000个地方报纸、电视台和广播电台的近100万条URL(及HTML文本),提供了美国地方新闻景观的广泛快照。数据集通过抓取Google和Twitter搜索结果收集,并采用多步骤过滤过程去除非新闻文章链接,并丰富了数据集的元数据,如新闻媒体组织的名称和地理坐标、文章发布日期等。
2. 3DLNews数据集
2.1 地方新闻媒体数据集
我们使用了Local Memory Project(LMP)的美国地方新闻数据集的扩展版本来获取地方新闻媒体。LMP的数据集包括5,993个地方报纸网站、2,539个电视台和1,061个广播电台,主要从thepaperboy.com提取于2016年。我们通过爬取和抓取thepaperboy.com、web.archive.org、usnpl.com、50states.com和einpresswire.com扩展了它。
表1: 美国地方新闻媒体数据集
媒体类型 | 网站数量 |
---|---|
报纸 | 9,441 |
广播 | 2,449 |
电视台 | 886 |
广播 | 1,310 |
总计 | 14,086 |
2.2 数据过滤
我们通过以下步骤去除非新闻文章链接:
- 步骤1: 解引用所有URL以解析重定向并检索返回HTTP 200响应代码的最终URL。
- 步骤2: 删除域名不在我们地方新闻媒体数据集中的链接。
- 步骤3: 将所有URL转换为小写,丢弃尾部斜杠,并删除重复的URL。
- 步骤4: 删除路径深度为零的URL,通常代表主页。
- 步骤5: 保留路径深度较低(如<3)且包含流行单词边界分隔符(如‘-’,‘_’,或‘.’)的新闻文章URL,并保留所有路径深度≥3的URL。
表3: 3DLNews: 新闻文章URL数量(非新闻URL排除)
类型 | 总计 | ||
---|---|---|---|
报纸 | 502,530 | 64,886 | 618,686 |
广播 | 52,925 | 555 | 64,658 |
电视台 | 62,727 | 22,675 | 105,008 |
广播 | 110,494 | 7,783 | 130,144 |
总计 | 728,676 | 95,899 | 824,575 |
2.3 数据丰富
我们通过添加属性来增强3DLNews中新闻文章URL的实用性。
表4: 3DLNews中新闻文章URL的属性
属性 | 描述 | 示例 |
---|---|---|
link | 地方新闻文章的URL | https://www.adn.com/alaska-news/article/womans-death-montana-has-eerie-echoes-yakutat-killing/2009/01/23/ |
html_filename | 文章的HTML内容文件名 | 556a766d0ee6d588632f30b662ada710.html |
publication_date | 文章发布日期 | 01/23/2009 |
title | 文章标题 | Womans death in Montana has eerie echoes of Yakutat killing - Anchorage Daily News |
media_name | 地方媒体组织名称 | Alaska Dispatch News |
media_type | 媒体源类型 | newspaper |
location | 媒体组织的位置 | {"state": "Alaska", "city": "Anchorage", "longitude": -149.87828, "latitude": 61.216799} |
media_metadata | 新闻媒体的更多信息 | 详细信息见示例 |
source | 新闻文章提取的平台 | Google |
source_metadata | 平台抓取的更多信息 | 详细信息见示例 |
response_code | 链接的GET请求返回的响应代码 | 200 |
expanded_url | 重定向链接的最终目标URL | None |
2.4 数据格式
数据集的结构如下:
├── Google │ ├── 1-Newspapers │ │ ├── state │ │ ├── preprocessed_data │ │ ├── filtered_data │ │ └── HTML │ ├── 2-Radio │ ├── 3-TV │ └── 4-Broadcast └── Twitter ├── 1-Newspapers ├── 2-Radio ├── 3-TV └── 4-Broadcast
3. 3DLNews数据集的潜在应用
- 探索地方新闻的全国化
- 媒体偏见分析
- 研究美国地方新闻荒漠
- 社区理解、趋势分析和预测

- 13DLNews: A Three-decade Dataset of US Local News Articles威廉与玛丽学院 · 2024年
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
NASA Exoplanet Archive
Exoplanets specifies Confirmed Planets.
kaggle 收录
Kaggle Stock Market Data
该数据集包含多个股票市场的历史数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。
www.kaggle.com 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录