Local News Dataset 2018
收藏github2019-03-28 更新2024-05-31 收录
下载链接:
https://github.com/BenjaminDHorne/LocalNewsDataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器可读的州级报纸、电视台和杂志目录。除了基本的出口名称和所在州信息外,还抓取了所有可用的网络存在、社交媒体(Twitter、YouTube、Facebook)及其所有者的信息。数据集的来源包括usnpl.com、stationindex.com以及多家媒体公司的主页。
This dataset is a machine-readable directory of state-level newspapers, television stations, and magazines. In addition to basic outlet names and state information, it also captures all available web presences, social media platforms (Twitter, YouTube, Facebook), and information about their owners. The sources of the dataset include usnpl.com, stationindex.com, and the homepages of various media companies.
创建时间:
2018-12-08
原始信息汇总
数据集概述
数据集名称
- 名称: Local News Dataset 2018
数据集内容
- 描述: 该数据集包含州级报纸、电视台和杂志的机器可读目录。除了基本的出口名称和所在州信息外,还包括所有可用的网络存在、社交媒体(Twitter、YouTube、Facebook)及其所有者的信息。
- 数据源:
- 报纸和杂志:usnpl.com
- 电视台:stationindex.com
- 媒体公司主页:Meredith, Sinclair, Nexstar, Tribune, Hearst
数据结构
- 表头:
- name
- state
- website
- domain
- youtube
- owner
- medium
- source
- collection_date
数据集组织
- 目录结构:
nbs目录包含使用该数据集的示例。py目录包含用于重新创建和更新数据集的脚本。
数据集使用
- 下载方式:
- 通过GitHub的原始文件下载。
- 使用命令行工具如
wget下载。 - 直接加载到Pandas DataFrame中。
数据集访问
数据集注意事项
- 重复域名: 可能存在多个条目使用相同域名的情况,原因在于某些城市级出版物是较大州级网站的子域。
数据集引用
-
引用格式:
@misc{leon_yin_2018_1345145, author = {Leon Yin}, title = {Local News Dataset}, month = aug, year = 2018, doi = {10.5281/zenodo.1345145}, url = {https://doi.org/10.5281/zenodo.1345145} }
搜集汇总
数据集介绍

构建方式
Local News Dataset 2018的构建基于对多个在线资源的数据抓取,包括usnpl.com、stationindex.com以及多个媒体公司的官方网站。数据集涵盖了州级报纸、电视台和杂志的基本信息,如名称、所在州、网站、社交媒体(推特、YouTube、脸书)以及所有者信息。数据抓取后,通过Python的requests和beautifulsoup包进行数据清洗和合并处理。
特点
该数据集的特点在于其收集了州级媒体资源的详尽信息,不仅包括基本的媒体信息,还包含了社交媒体和所有者信息。此外,数据集还提供了针对域名级别分析的预处理版本,有助于研究不同媒体机构在网络上的影响力。数据集的构建旨在作为研究和应用的基础,并作为连接社交媒体、新闻文章和在线社区数据的桥梁。
使用方法
用户可以通过直接从GitHub网站下载CSV文件来使用该数据集,或者通过命令行使用wget工具下载。数据集同样可以被直接加载到Pandas DataFrame中,便于进行数据分析和处理。在使用过程中,如果发现数据异常或缺失,用户可以通过GitHub提交问题或联系数据集创建者进行反馈。
背景与挑战
背景概述
Local News Dataset 2018是由Leon Yin于2018年8月创建的,旨在为研究者提供一个关于州级报纸、电视台和杂志的机器可读目录。该数据集包含了媒体的基本信息,如名称、所在州,以及网络存在情况、社交媒体(推特、YouTube、脸书)和所有者信息等。此数据集的灵感来源于ProPublica的Congress API,Leon Yin希望该数据集能作为一个研究起点,同时作为社交媒体、新闻文章和在线社区数据集之间的桥梁。
当前挑战
该数据集在构建过程中遇到的挑战包括数据抓取、信息归一化和整合等步骤。具体挑战体现在确保数据的准确性、完整性,以及处理不同来源数据的一致性和可靠性。此外,数据集中可能存在的异常、有问题条目或缺失的信息需要用户在使用过程中提交问题以不断完善。在研究领域问题方面,该数据集旨在解决如何利用媒体信息进行有效分析和研究的问题,这对于理解地方新闻媒体生态及其在社会中的角色具有重要意义。
常用场景
经典使用场景
在新闻传播学及媒体研究领域,Local News Dataset 2018 被广泛用于分析各州新闻媒体的互联网布局及社交媒体活跃度。该数据集通过收集报纸、电视台和杂志的基本信息,以及它们的网络存在形态和社交媒体资料,为研究提供了丰富的实证基础。
实际应用
在实际应用中,Local News Dataset 2018 可以为媒体公司提供市场分析,帮助它们调整网络战略和社交媒体营销计划。此外,政策制定者可用此数据集来评估信息传播的广度和深度,为公共信息的有效传递提供决策支持。
衍生相关工作
基于该数据集,研究者们进一步开展了一系列相关研究,如分析新闻媒体的所有权结构对报道偏见的影响,以及社交媒体在地方新闻报道中的作用等。这些研究丰富了新闻传播学的理论体系,并对实际操作提供了指导。
以上内容由遇见数据集搜集并总结生成



