UKTwitNewsCor
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://doi.org/10.7910/DVN/R5XTEO
下载链接
链接失效反馈官方服务:
资源简介:
UKTwitNewsCor是一个综合性的数据集,旨在研究英国在线地方媒体的新闻内容生产、传播和受众参与动态。该数据集包含来自360个地方新闻网站的超过250万篇在线新闻文章,发布时间为2020年1月至2022年12月。数据集代表了这些媒体机构在Twitter上分享的所有文章,并加入了社交媒体层面的表现指标。此外,数据集还包括关于内容跨领域复制情况的元数据。该数据集的创建旨在促进对英国地方媒体、新闻趋势和内容多样性的全面、纵向分析。
UKTwitNewsCor is a comprehensive dataset developed to examine the dynamics of news content production, dissemination and audience engagement for UK-based online local media. It contains over 2.5 million online news articles from 360 local news websites, published between January 2020 and December 2022. The dataset includes all articles shared by these media outlets on Twitter, and incorporates social media performance metrics. Additionally, it contains metadata related to cross-domain content replication. This dataset is designed to facilitate comprehensive, longitudinal analyses of UK local media, news trends and content diversity.
提供机构:
萨里大学人民中心人工智能研究所
创建时间:
2025-05-20
原始信息汇总
UKTwitNewsCor 数据集概述
基本信息
- 标题: UKTwitNewsCor
- 版本: 1.0
- DOI: https://doi.org/10.7910/DVN/R5XTEO
- 作者: Bisiani, Simona (University of Surrey)
- 发布日期: 2024-12-19
- 许可协议: CC BY-NC 4.0
数据集描述
UKTwitNewsCor 是一个用于理解英国在线本地媒体内容生产、传播和受众参与动态的综合数据集。数据集包含:
- 数据量: 超过250万篇在线新闻文章
- 来源: 360家英国本地媒体
- 时间范围: 2020年至2022年
- 数据收集方式: 通过X(原Twitter)账户分享的文章
- 补充数据:
- 社交媒体表现指标
- 跨域内容重复的元数据
- 每个域名目标地理覆盖范围的信息
数据集组成
- 主文件:
articles.zip: 压缩CSV文件,完整数据集(2.1 GB)uktwitnewscor.zip: 压缩SQLite3数据库,包含四个表(2.3 GB)
- 样本文件:
articles_sample.tab: 文章数据样本(647.5 KB)
- 辅助文件:
districts.tab: 英国地方行政区及本地媒体覆盖统计(78.8 KB)domains.tab: 英国在线本地媒体目录(179.8 KB)publishers.tab: 英国在线本地媒体提供商及其品牌(60.2 KB)
主题与关键词
- 主题: 艺术与人文; 计算机与信息科学; 社会科学
- 关键词: UK Online Local News
使用说明
- 访问限制: 部分文件为受限访问
- 引用信息: 数据集创建方法、变量描述和推断强度评估详见即将发表的论文《UKTwitNewsCor: A Dataset of Online Local News Articles for the Study of Local News Provision》
数据集指标
- 下载量: 37次
搜集汇总
数据集介绍

构建方式
UKTwitNewsCor数据集的构建采用了多阶段采集与增强策略,通过Twitter Academic API系统性地抓取了2020至2022年间360家英国地方媒体账号发布的推文,从中提取了嵌入的新闻文章链接。为确保数据完整性,研究团队采用并行化Python脚本结合newspaper3k库进行文章内容爬取,并运用Locality-Sensitive Hashing算法检测跨域内容重复现象。数据采集过程特别处理了URL缩短服务、付费墙等技术障碍,最终形成包含253万篇文章的核心语料库,同时配套构建了媒体域名目录、地方行政区划数据集和出版商级统计数据集。
特点
该数据集的核心价值体现在其时空覆盖广度与多维度增强特征上。作为目前英国规模最大的地方新闻语料库,其覆盖了94%的地方行政区划(LADs),时间跨度完整捕捉了新冠疫情、英国脱欧过渡期等重大事件。独特之处在于整合了推文级社交媒体互动指标(包括转发、点赞、曝光量等),并创新性地通过MinHash算法标注内容重复群组,为研究媒体所有权集中化对内容多样性的影响提供了量化基础。数据集采用分层设计,四个关联子集通过统一标识符实现跨表关联,支持从文章、域名、行政区划到出版商的多粒度分析。
使用方法
研究者可通过哈佛Dataverse获取CSV或SQLite3格式的标准化数据集,其关系型数据结构支持复杂查询与联合分析。典型应用场景包括:基于Critical Information Needs框架评估地方新闻供给质量,利用LSH标注群组研究内容重复模式,或结合行政区划人口数据开展新闻覆盖公平性分析。社交媒体指标支持信息传播动力学研究,但需注意平台算法变迁对历时性比较的影响。配套提供的覆盖范围统计文件可辅助分层抽样设计,缓解数据在小型独立出版商层面的代表性偏差问题。所有使用需遵循CC BY-NC 4.0许可协议,并保留原始文章URL以遵守版权规范。
背景与挑战
背景概述
UKTwitNewsCor是由萨里大学以人为中心人工智能研究所的Simona Bisiani等人于2025年发布的英国本地新闻数据集,旨在研究数字时代本地新闻的供给与传播动态。该数据集收录了2020年1月至2022年12月期间360家英国本地媒体在Twitter上分享的250万篇新闻文章,并创新性地整合了推文级社交参与度指标和跨域内容重复元数据。作为首个聚焦英国市场的本地新闻语料库,它填补了传统新闻档案与API接口缺失造成的研究空白,为分析媒体所有权集中化、地理覆盖差异以及算法控制对地方新闻的影响提供了实证基础。其36个月的时间跨度还能捕捉新冠疫情、英国脱欧等重大事件对地方新闻生态的长期影响。
当前挑战
该数据集面临双重挑战:在研究层面,需解决地方新闻危机导致的报道同质化、地理覆盖不均等核心问题,但传统内容分析方法受限于样本规模与时间跨度。在构建层面,技术难题包括:1) 依赖已停用的Twitter学术API导致数据采集不可复现;2) 处理短链接解析、付费墙拦截等网络爬取障碍;3) 通过局部敏感哈希识别250万篇文章的重复内容时面临计算复杂度挑战;4) 媒体所有权高度集中导致样本代表性偏差——仅覆盖47%已知媒体域名,且三大出版商控制57%市场份额。此外,推文分享行为固有的选择偏差可能影响对整体新闻产出的推断效度。
常用场景
经典使用场景
UKTwitNewsCor数据集为研究英国地方新闻的传播与受众参与提供了丰富资源。该数据集收录了2020年至2022年间360家地方媒体发布的250万篇新闻文章,并结合了推文级社交媒体互动指标。研究者可通过分析文章内容、发布时间与地理标签的关联性,揭示地方新闻生产的时空规律,以及媒体所有权集中化对报道多样性的影响。
解决学术问题
该数据集有效解决了地方新闻研究中样本规模不足、时间跨度有限的瓶颈问题。通过覆盖94%英国地方行政区及47%活跃地方媒体域名,支持对新闻同质化、内容重复利用等现象的量化分析。其三年期的纵向设计允许追踪新冠疫情、英国脱欧等重大事件对地方报道框架的长期影响,为传媒经济学与公共传播学研究提供了实证基础。
衍生相关工作
基于该数据集衍生的研究包括:应用LSH算法检测跨媒体内容重复现象的工作(Jafari et al., 2021),采用MinHash技术构建新闻相似性网络的分析框架(Broder, 1997),以及结合Critical Information Needs理论评估地方信息供给的系列研究(Friedland et al., 2012)。这些工作推动了计算传播学方法在地方媒体研究中的创新应用。
以上内容由遇见数据集搜集并总结生成



