balance_dataset
收藏github2018-09-14 更新2024-05-31 收录
下载链接:
https://github.com/danithaca/balance_dataset
下载链接
链接失效反馈官方服务:
资源简介:
用于政治极化研究的数据集,包含来自Digg和Reddit的政治文章及用户关系数据。
A dataset for political polarization research, containing political articles and user relationship data from Digg and Reddit.
创建时间:
2018-03-12
原始信息汇总
数据集概述
数据集名称
balance_dataset
数据集目的
用于政治极化研究。
数据集内容
-
digg2010.tar.gz
- 包含来自Digg的政治文章及Digg用户友谊数据。
- 注意:数据集被分割以减小文件大小至100MB以下,可通过此处指导合并。
-
mturk.tar.gz
- 包含来自Mturk的政治倾向标签,涵盖Digg和Reddit的故事。
- 大多数文章有4个标签,约2000篇文章每篇有20个标签。
-
data2011.tar.gz
- 包含来自Digg和Reddit的政治文章,其中许多文章与mturk.tar.gz中的文章重叠。
数据格式
- 每行是一个JSON对象。
参考文献
@inproceedings{zhou2011classifying, title={Classifying the Political Leaning of News Articles and Users from User Votes.}, author={Zhou, Daniel Xiaodan and Resnick, Paul and Mei, Qiaozhu}, booktitle={ICWSM}, year={2011} }
搜集汇总
数据集介绍

构建方式
balance_dataset的构建,旨在为政治极化研究提供数据支撑。该数据集通过收集Digg和Reddit上的政治文章,并整合了用户的友谊数据以及来自Mturk的政治倾向标签。数据集的构建涉及对政治文章的采集,用户数据的整合以及对文章进行标签标注,通过分块处理的方式,确保了数据集的大小适宜于网络传输与处理。
特点
该数据集的特点在于其涉及了政治倾向性的研究,包含了来自Digg和Reddit的政治文章,并提供了丰富的用户标签数据。数据集以JSON格式存储,每行是一个JSON对象,便于程序读取和处理。此外,数据集的部分文章拥有高达20个标签,增加了数据集的多样性和复杂性。
使用方法
使用balance_dataset数据集时,用户需先根据README中提供的指南合并数据文件。之后,可以通过编程语言如Python等读取JSON格式的数据,进行数据分析和模型训练。针对不同的研究需求,用户可以依据提供的标签对文章进行分类研究,或是利用用户数据探索政治极化的社会网络特征。
背景与挑战
背景概述
balance_dataset数据集,旨在为政治两极化研究提供支持,其创建背景源于对政治新闻文章以及用户投票行为进行分析的需求。该数据集由Zhou Daniel Xiaodan、Resnick Paul及Mei Qiaozhu等研究人员于2011年构建,并已在相关领域产生了广泛影响。数据集包含了来自Digg和Reddit的政治文章,以及通过Mechanical Turk获得的用户对文章的政治倾向标注,为理解网络环境中政治极化的现象提供了重要资源。
当前挑战
在数据集构建过程中,研究人员面临了诸多挑战。首先,如何准确捕捉和标记政治文章的倾向性是一个主要难题,特别是在多元化的网络环境中。其次,数据集的规模较大,对存储和计算资源提出了较高要求,为此研究人员采用了分片存储的方法以适应。此外,不同用户对同一文章的标注可能存在主观偏差,这为后续的数据处理和分析带来了额外的挑战。
常用场景
经典使用场景
在政治极化研究领域,balance_dataset数据集被广泛用于分析政治文章的倾向性以及用户间的友谊关系。该数据集包含Digg和Reddit平台上的政治文章,以及通过Mturk获取的文章政治倾向性标签,成为研究政治极化现象的重要资源。
实际应用
在实际应用中,balance_dataset数据集可用于构建政治立场分析模型,辅助社交媒体平台监测与调控其平台内容倾向性,同时,亦可用于改进算法推荐的公平性和中立性,保护用户免受信息茧房的困扰。
衍生相关工作
基于balance_dataset数据集,研究者发表了诸多经典工作,如Zhou等人2011年的研究《Classifying the Political Leaning of News Articles and Users from User Votes》便是其中的代表,该研究通过用户投票数据对新闻文章及用户的政治倾向进行分类,为后续研究提供了方法论上的借鉴。
以上内容由遇见数据集搜集并总结生成



