3DLNews
收藏arXiv2024-08-09 更新2024-08-13 收录
下载链接:
https://arxiv.org/pdf/2408.04716v1
下载链接
链接失效反馈官方服务:
资源简介:
3DLNews是由威廉与玛丽学院创建的一个涵盖1996年至2024年的美国地方新闻文章数据集。该数据集包含近100万条URL,来自超过14,000个地方报纸、电视台和广播电台,覆盖美国所有50个州。数据集通过从Google和Twitter搜索结果中抓取并经过多步骤过滤和丰富元数据(如新闻源的地理坐标、发布日期等)创建。3DLNews主要用于研究美国地方新闻的全国化、媒体偏见、地方新闻荒漠化及社区理解等领域,旨在解决地方新闻报道的多样性和深度问题。
3DLNews is a U.S. local news article dataset developed by the College of William & Mary, covering the period from 1996 to 2024. It contains nearly 1 million URLs sourced from over 14,000 local newspapers, television stations and radio stations, spanning all 50 U.S. states. The dataset was constructed by scraping content from Google and Twitter search results, followed by multi-step filtering and metadata enrichment including geographic coordinates of news outlets and publication dates. 3DLNews is primarily intended for research in domains such as the nationalization of U.S. local news, media bias, local news desertification and community understanding, aiming to address the gaps in the diversity and depth of local news coverage.
提供机构:
威廉与玛丽学院
创建时间:
2024-08-09
搜集汇总
数据集介绍

构建方式
3DLNews数据集的构建始于对美国地方新闻媒体的全面梳理。研究团队首先扩展了Local Memory Project的数据集,通过爬取和抓取多个在线资源,如thepaperboy.com、web.archive.org、50states.com和einpresswire.com,最终形成了包含14,086个地方新闻网站的数据集。随后,通过Google和Twitter的搜索结果,从1996年至2024年间抓取了近100万条新闻文章链接。为确保数据质量,研究团队实施了多步骤过滤过程,剔除非新闻文章链接,并丰富了数据集的元数据,包括新闻媒体组织的名称、地理坐标、文章发布日期等。
特点
3DLNews数据集的显著特点在于其广泛的时间跨度和地理覆盖范围。该数据集涵盖了1996年至2024年间的美国地方新闻文章,涉及所有50个州和超过68%的美国县。此外,数据集不仅包含原始的HTML文本,还附带了丰富的元数据,如新闻媒体的类型、地理位置信息等,这为深入分析提供了坚实的基础。与其他新闻数据集相比,3DLNews专注于地方新闻,且完全免费,为研究者提供了独特的资源。
使用方法
3DLNews数据集适用于多种研究应用,包括但不限于地方新闻的国家化分析、媒体偏见研究、地方新闻荒漠现象的探讨以及社区理解。研究者可以通过自然语言处理技术,分析新闻文章的主题和内容,以量化地方新闻的国家化程度。此外,数据集的广泛地理和时间覆盖范围,使其成为研究美国地方媒体生态系统的理想工具。通过内容分析,研究者可以深入了解不同社区的生活条件和公众态度,从而为政策制定和新闻实践提供有价值的见解。
背景与挑战
背景概述
3DLNews,由Gangani Ariyarathne和Alexander C. Nwala于2024年创建,是一个涵盖1996年至2024年美国地方新闻文章的独特数据集。该数据集包含了来自美国50个州超过14,000个地方报纸、电视台和广播站的近100万条URL,提供了美国地方新闻景观的广泛快照。通过从Google和Twitter搜索结果中抓取数据,3DLNews不仅填补了现有新闻数据集在全球或国家新闻、付费墙或范围有限的空白,还为研究美国地方新闻及其对社区健康、民主和经济等议题的影响提供了宝贵的资源。
当前挑战
3DLNews在构建过程中面临多项挑战。首先,由于新闻文章的URL格式没有统一标准,数据集中可能包含少量非新闻文章的URL。其次,数据集未包含已存档但不可用的文章URL,且受限于网络抓取技术,收集的URL数量有限。此外,数据集中可能包含已关闭新闻机构的文章内容,而这些机构的信息可能已从搜索引擎索引中删除。最后,基于新闻媒体组织位置的分析可能无法准确反映新闻故事覆盖的实际地理区域。这些挑战需要在未来的研究中进一步解决和优化。
常用场景
经典使用场景
3DLNews数据集的经典使用场景主要集中在对美国地方新闻的全面分析上。通过该数据集,研究者可以深入探讨地方新闻的演变趋势、媒体偏见、新闻荒漠现象以及社区理解等多个方面。例如,研究者可以利用3DLNews进行时间序列分析,观察不同时间段内地方新闻内容的变化,或者进行地理空间分析,研究不同地区新闻报道的差异。此外,该数据集还可用于训练和验证自然语言处理模型,以识别和分析地方新闻中的特定主题和情感倾向。
衍生相关工作
3DLNews数据集的发布催生了一系列相关研究和工作。例如,基于该数据集,研究者可以开发新的自然语言处理技术,用于自动识别和分类地方新闻中的主题和情感。此外,3DLNews还激发了对地方新闻生态系统的进一步研究,包括新闻荒漠的形成机制、媒体偏见的影响以及地方新闻对社区凝聚力的作用。这些研究不仅丰富了学术界的知识库,也为实际应用提供了理论支持。
数据集最近研究
最新研究方向
在新闻数据分析领域,3DLNews数据集的最新研究方向主要集中在利用其广泛的时间跨度和地理覆盖范围,深入探讨美国地方新闻的演变及其对社会的影响。研究者们通过自然语言处理技术,分析新闻内容的变化趋势,特别是地方新闻如何应对全国性新闻的冲击,以及媒体偏见在地方新闻中的表现。此外,该数据集还被用于研究美国地方新闻荒漠现象,通过分析新闻文章的地理分布,揭示哪些地区缺乏本地新闻报道,并探讨其对社区民主和经济健康的影响。这些研究不仅有助于理解地方新闻的现状,还为政策制定者和新闻从业者提供了宝贵的参考,以应对地方新闻面临的挑战和机遇。
相关研究论文
- 13DLNews: A Three-decade Dataset of US Local News Articles威廉与玛丽学院 · 2024年
以上内容由遇见数据集搜集并总结生成



