five

Local News Dataset 2018

收藏
github2023-05-15 更新2024-05-31 收录
下载链接:
https://github.com/yinleon/LocalNewsDataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个机器可读的州级报纸、电视台和杂志目录。除了基本的出口名称和所在州信息外,还抓取了所有可用的网络存在、社交媒体(Twitter、YouTube、Facebook)及其所有者的信息。

This dataset comprises a machine-readable directory of state-level newspapers, television stations, and magazines. In addition to fundamental details such as outlet names and state locations, it also captures all available online presences, social media platforms (Twitter, YouTube, Facebook), and information about their respective owners.
创建时间:
2018-08-03
原始信息汇总

数据集概述

数据集名称

  • 名称: Local News Dataset 2018

数据集内容

  • 描述: 该数据集包含美国各州报纸、电视台和杂志的基本信息,包括名称、所在州、网站、社交媒体(Twitter、YouTube、Facebook)账号及其所有者信息。
  • 数据源:
    • usnpl.com - 报纸和杂志按州分类
    • stationindex.com - 电视台按州和所有者分类
    • 媒体公司主页:Meredith, Sinclair, Nexstar, Tribune, Hearst

数据结构

  • 列信息:
    • name
    • state
    • website
    • domain
    • twitter
    • youtube
    • facebook
    • owner
    • medium
    • source
    • collection_date

数据集使用

  • 下载方式:
    • 通过GitHub直接下载: https://raw.githubusercontent.com/yinleon/LocalNewsDataset/master/data/local_news_dataset_2018.csv
    • 使用命令行下载: wget https://raw.githubusercontent.com/yinleon/LocalNewsDataset/master/data/local_news_dataset_2018.csv
  • 加载到Pandas DataFrame: python import pandas as pd url = https://raw.githubusercontent.com/yinleon/LocalNewsDataset/master/data/local_news_dataset_2018.csv df_local_news = pd.read_csv(url)

数据集组织

  • 目录结构:
    • nbs 目录包含使用示例
    • py 目录包含数据集创建和更新的脚本

数据集方法论

  • 数据收集: 使用Python的requests和beautifulsoup库从多个网站抓取数据
  • 数据处理: 列名标准化和数据合并

注意事项

  • 重复域名: 某些城市级别的出版物是较大州级网站的子域,可能导致同一域名有多个条目

引用信息

  • 引用格式:

    @misc{leon_yin_2018_1345145, author = {Leon Yin}, title = {Local News Dataset}, month = aug, year = 2018, doi = {10.5281/zenodo.1345145}, url = {https://doi.org/10.5281/zenodo.1345145} }

搜集汇总
数据集介绍
main_image_url
构建方式
Local News Dataset 2018的构建过程主要依赖于网络爬虫技术,通过Python的requests和BeautifulSoup库从多个公开网站抓取数据。这些网站包括usnpl.com和stationindex.com,以及Meredith、Sinclair、Nexstar、Tribune和Hearst等媒体公司的主页。数据集涵盖了美国各州的报纸、电视台和杂志的基本信息,包括名称、所在州、网站、社交媒体链接及所有者信息。数据经过清洗和标准化处理后,最终合并成一个统一的CSV文件。
使用方法
Local News Dataset 2018可以通过多种方式访问和使用。用户可以直接从GitHub下载CSV文件,或使用命令行工具如wget进行下载。此外,数据集也可以直接加载到Pandas DataFrame中进行分析。对于希望进行更深入研究的用户,提供了Jupyter Notebook示例,展示了如何利用该数据集进行具体的数据分析和处理。数据集的设计旨在支持从社交媒体、新闻文章到在线社区的广泛研究应用。
背景与挑战
背景概述
Local News Dataset 2018是由Leon Yin于2018年创建的一个数据集,旨在提供一个机器可读的州级报纸、电视台和杂志目录。该数据集不仅包含媒体机构的名称和所在州等基本信息,还通过爬取技术收集了其网站、社交媒体(如Twitter、YouTube、Facebook)以及所有者的相关信息。数据来源包括usnpl.com、stationindex.com以及多家媒体公司的主页。该数据集的灵感来源于ProPublica的Congress API,旨在为研究者和开发者提供一个起点,连接社交媒体、新闻文章和在线社区的数据。该数据集在新闻媒体研究、社交媒体分析和区域信息传播等领域具有重要的应用价值。
当前挑战
Local News Dataset 2018在构建和应用过程中面临多重挑战。首先,数据收集依赖于多个来源的爬取,这可能导致数据的不一致性和缺失,例如某些媒体机构的社交媒体信息可能无法获取。其次,由于部分城市级出版物是州级站点的子域名,数据集中存在多个条目共享相同域名的情况,这为基于域名的分析带来了复杂性。此外,数据集的更新和维护需要持续的技术支持,以确保数据的时效性和准确性。这些挑战不仅影响了数据集的完整性,也对研究者在数据预处理和分析中提出了更高的技术要求。
常用场景
经典使用场景
Local News Dataset 2018 数据集广泛应用于新闻传播学、社会学和政治学等领域的研究中,特别是在分析地方媒体的分布、所有权结构及其社交媒体影响力方面。研究者可以通过该数据集深入探讨地方媒体如何影响公众舆论和政治决策,进而揭示媒体与社会的互动机制。
解决学术问题
该数据集解决了地方媒体研究中数据稀缺的问题,提供了全面的地方媒体信息,包括报纸、电视台和杂志的基本信息及其社交媒体账号。通过这一数据集,研究者能够系统地分析地方媒体的所有权集中度、跨平台传播策略及其对地方社区的影响,填补了相关领域的学术空白。
实际应用
在实际应用中,Local News Dataset 2018 为新闻机构、政策制定者和非营利组织提供了宝贵的数据支持。例如,新闻机构可以利用该数据集优化地方新闻报道策略,政策制定者可以评估媒体所有权集中度对信息多样性的影响,而非营利组织则可以通过分析社交媒体数据制定更有效的公众参与计划。
数据集最近研究
最新研究方向
近年来,Local News Dataset 2018在新闻传播与媒体研究领域引起了广泛关注。该数据集通过整合美国各州的报纸、电视台和杂志的详细信息,包括其社交媒体账号和所有者信息,为研究者提供了一个全面的本地媒体资源库。当前的研究方向主要集中在媒体所有权集中度对新闻内容多样性的影响,以及社交媒体在本地新闻传播中的作用。此外,该数据集还被用于分析媒体生态系统的变化,特别是在数字化转型背景下,传统媒体与新兴媒体之间的竞争与合作关系。这些研究不仅深化了对媒体行业的理解,也为政策制定者提供了数据支持,以促进新闻行业的健康发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作