balance_dataset

github2018-09-14 更新2024-05-31 收录

下载链接：

https://github.com/danithaca/balance_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于政治极化研究的数据集，包含来自Digg和Reddit的政治文章及用户关系数据。

A dataset for political polarization research, containing political articles and user relationship data from Digg and Reddit.

创建时间：

2018-03-12

原始信息汇总

数据集概述

数据集名称

balance_dataset

数据集目的

用于政治极化研究。

数据集内容

digg2010.tar.gz
- 包含来自Digg的政治文章及Digg用户友谊数据。
- 注意：数据集被分割以减小文件大小至100MB以下，可通过此处指导合并。
mturk.tar.gz
- 包含来自Mturk的政治倾向标签，涵盖Digg和Reddit的故事。
- 大多数文章有4个标签，约2000篇文章每篇有20个标签。
data2011.tar.gz
- 包含来自Digg和Reddit的政治文章，其中许多文章与mturk.tar.gz中的文章重叠。

数据格式

每行是一个JSON对象。

参考文献

@inproceedings{zhou2011classifying, title={Classifying the Political Leaning of News Articles and Users from User Votes.}, author={Zhou, Daniel Xiaodan and Resnick, Paul and Mei, Qiaozhu}, booktitle={ICWSM}, year={2011} }

搜集汇总

数据集介绍

构建方式

balance_dataset的构建，旨在为政治极化研究提供数据支撑。该数据集通过收集Digg和Reddit上的政治文章，并整合了用户的友谊数据以及来自Mturk的政治倾向标签。数据集的构建涉及对政治文章的采集，用户数据的整合以及对文章进行标签标注，通过分块处理的方式，确保了数据集的大小适宜于网络传输与处理。

特点

该数据集的特点在于其涉及了政治倾向性的研究，包含了来自Digg和Reddit的政治文章，并提供了丰富的用户标签数据。数据集以JSON格式存储，每行是一个JSON对象，便于程序读取和处理。此外，数据集的部分文章拥有高达20个标签，增加了数据集的多样性和复杂性。

使用方法

使用balance_dataset数据集时，用户需先根据README中提供的指南合并数据文件。之后，可以通过编程语言如Python等读取JSON格式的数据，进行数据分析和模型训练。针对不同的研究需求，用户可以依据提供的标签对文章进行分类研究，或是利用用户数据探索政治极化的社会网络特征。

背景与挑战

背景概述

balance_dataset数据集，旨在为政治两极化研究提供支持，其创建背景源于对政治新闻文章以及用户投票行为进行分析的需求。该数据集由Zhou Daniel Xiaodan、Resnick Paul及Mei Qiaozhu等研究人员于2011年构建，并已在相关领域产生了广泛影响。数据集包含了来自Digg和Reddit的政治文章，以及通过Mechanical Turk获得的用户对文章的政治倾向标注，为理解网络环境中政治极化的现象提供了重要资源。

当前挑战

在数据集构建过程中，研究人员面临了诸多挑战。首先，如何准确捕捉和标记政治文章的倾向性是一个主要难题，特别是在多元化的网络环境中。其次，数据集的规模较大，对存储和计算资源提出了较高要求，为此研究人员采用了分片存储的方法以适应。此外，不同用户对同一文章的标注可能存在主观偏差，这为后续的数据处理和分析带来了额外的挑战。

常用场景

经典使用场景

在政治极化研究领域，balance_dataset数据集被广泛用于分析政治文章的倾向性以及用户间的友谊关系。该数据集包含Digg和Reddit平台上的政治文章，以及通过Mturk获取的文章政治倾向性标签，成为研究政治极化现象的重要资源。

实际应用

在实际应用中，balance_dataset数据集可用于构建政治立场分析模型，辅助社交媒体平台监测与调控其平台内容倾向性，同时，亦可用于改进算法推荐的公平性和中立性，保护用户免受信息茧房的困扰。

衍生相关工作

基于balance_dataset数据集，研究者发表了诸多经典工作，如Zhou等人2011年的研究《Classifying the Political Leaning of News Articles and Users from User Votes》便是其中的代表，该研究通过用户投票数据对新闻文章及用户的政治倾向进行分类，为后续研究提供了方法论上的借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集