AOC Reply Dataset

github2022-11-17 更新2024-05-31 收录

下载链接：

https://github.com/mapmeld/aoc_reply_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含针对Alexandria Ocasio-Cortez（@AOC）Twitter回复的样本JSON数据，用于无监督学习和机器人阻拦。数据集包括每个原始AOC推文或转推的JSON文件，旨在帮助过滤Twitter上的不当评论。

This dataset comprises sample JSON data of Twitter replies to Alexandria Ocasio-Cortez (@AOC), intended for unsupervised learning and bot interception. It includes JSON files for each original tweet or retweet by AOC, designed to assist in filtering inappropriate comments on Twitter.

创建时间：

2019-04-29

原始信息汇总

数据集概述

数据集名称

AOC Reply Dataset

数据集内容

样本数据：包含在replies_by_tweet中的回复样本JSON文件。
完整数据：位于all_tweets/目录下，每个原始AOC推文或转推对应一个JSON文件。

数据收集方法

使用用户脚本scan.js，通过GreaseMonkey/TamperMonkey浏览器扩展进行数据收集。
由于Twitter API不支持回复的抓取，此方法是目前最佳的数据收集方式。

数据处理与分析

基本分析：basic-analysis.py用于统计推文线程中的回复数量。
数据整合：basic-etl.py将所有线程JSON文件合并为两个CSV文件，并包含SQL注释，用于识别不良用户。
机器学习方法：
- option-b-ml.py通过SQL查询识别包含亵渎性文本的回复。
- option-c-clusters.py使用word2vec和k-means聚类分析。
- option-d-hierarchy.py设置类别，进行层次/凝聚聚类分析。
可视化：environment-tweet-charts.py收集环境相关和人身攻击主题的推文及其时间戳，用于可视化展示。

许可证

数据集脚本采用MIT许可证。注意，此方法未使用Twitter官方API，可能违反Twitter的服务条款，且可能遗漏部分推文，受Twitter界面更改影响可能失效。

搜集汇总

数据集介绍

构建方式

AOC Reply Dataset的构建基于对Rep. Alexandria Ocasio-Cortez（AOC）在Twitter上的回复进行收集和分析。由于Twitter API不支持直接抓取回复，数据集作者采用了GreaseMonkey/TamperMonkey浏览器扩展的用户脚本（scan.js）进行数据抓取。每个AOC的原始推文或转发的回复被存储为单独的JSON文件，这些文件随后被整合为两个CSV文件，以便于进一步的分析和处理。

特点

该数据集的特点在于其专注于政治讨论中的极端言论，特别是针对AOC的回复。数据集包含了大量的回复数据，这些数据被用于机器学习和自然语言处理任务，以识别和分类潜在的恶意用户或自动化账户（bots）。数据集的结构设计允许用户通过多种机器学习方法进行分析，包括监督学习和无监督学习，以及文本聚类和层次聚类。

使用方法

使用AOC Reply Dataset时，用户可以通过提供的Python脚本进行数据预处理和分析。数据集支持多种分析方法，包括基本的推文计数、文本分析、以及使用word2vec和k-means聚类进行的高级文本分析。此外，数据集还提供了环境推文和时间戳的可视化工具，帮助用户更直观地理解数据。用户应注意到，由于数据集是通过非官方API抓取的，使用时需遵守Twitter的服务条款，并注意可能的数据不完整或界面变化带来的影响。

背景与挑战

背景概述

AOC Reply Dataset 是一个聚焦于美国众议员 Alexandria Ocasio-Cortez（AOC）在 Twitter 上的回复数据的数据集。该数据集由独立研究人员于 2020 年左右创建，旨在通过分析 AOC 推文下的回复，探讨政治讨论中的网络行为，尤其是针对恶意用户和疑似机器人账户的识别问题。AOC 的推文因其政治敏感性，常常成为激烈讨论的焦点，吸引了大量用户参与，其中不乏带有攻击性或疑似自动化行为的账户。该数据集为研究社交媒体中的政治对话、网络暴力以及自动化账户检测提供了重要的数据支持，对政治学、社会学和计算机科学等领域具有广泛的研究价值。

当前挑战

AOC Reply Dataset 的构建和应用面临多重挑战。首先，Twitter 的 API 限制使得数据采集变得复杂，尤其是在回复数据的获取上，研究人员不得不依赖浏览器脚本进行爬取，这不仅效率低下，还可能违反 Twitter 的服务条款。其次，数据集的核心研究问题——识别恶意用户和疑似机器人账户——本身具有高度复杂性，因为恶意行为的表现形式多样，且自动化账户的行为模式不断演变。此外，数据集的构建过程中还面临数据完整性和准确性的挑战，例如由于 Twitter 的界面更新，部分回复可能无法被完整抓取。这些挑战不仅影响了数据集的质量，也为后续的机器学习和数据分析任务增加了难度。

常用场景

经典使用场景

AOC Reply Dataset 主要用于分析社交媒体上的政治讨论，特别是针对美国众议员 Alexandria Ocasio-Cortez 的推特回复。该数据集通过收集和分析大量回复，帮助研究者理解网络政治讨论中的用户行为模式，尤其是针对极端言论和疑似机器人账号的识别。

解决学术问题

该数据集解决了社交媒体研究中常见的几个学术问题，包括如何有效识别和分类网络上的恶意言论、机器人账号的检测以及政治讨论中的情绪分析。通过机器学习和自然语言处理技术，研究者可以深入探讨网络言论的真实性和影响力，为社交媒体平台的治理提供科学依据。

衍生相关工作

基于 AOC Reply Dataset，研究者们开发了多种机器学习和自然语言处理模型，用于自动化识别网络上的恶意言论和机器人账号。这些工作不仅推动了社交媒体内容审核技术的发展，还为政治学和传播学领域提供了新的研究视角。例如，一些研究利用该数据集训练的分类模型，成功应用于其他政治人物的社交媒体分析中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集