five

AOC Reply Dataset

收藏
github2022-11-17 更新2024-05-31 收录
下载链接:
https://github.com/mapmeld/aoc_reply_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含针对Alexandria Ocasio-Cortez(@AOC)Twitter回复的样本JSON数据,用于无监督学习和机器人阻拦。数据集包括每个原始AOC推文或转推的JSON文件,旨在帮助过滤Twitter上的不当评论。

This dataset comprises sample JSON data of Twitter replies to Alexandria Ocasio-Cortez (@AOC), intended for unsupervised learning and bot interception. It includes JSON files for each original tweet or retweet by AOC, designed to assist in filtering inappropriate comments on Twitter.
创建时间:
2019-04-29
原始信息汇总

数据集概述

数据集名称

AOC Reply Dataset

数据集内容

  • 样本数据:包含在replies_by_tweet中的回复样本JSON文件。
  • 完整数据:位于all_tweets/目录下,每个原始AOC推文或转推对应一个JSON文件。

数据收集方法

  • 使用用户脚本scan.js,通过GreaseMonkey/TamperMonkey浏览器扩展进行数据收集。
  • 由于Twitter API不支持回复的抓取,此方法是目前最佳的数据收集方式。

数据处理与分析

  • 基本分析basic-analysis.py用于统计推文线程中的回复数量。
  • 数据整合basic-etl.py将所有线程JSON文件合并为两个CSV文件,并包含SQL注释,用于识别不良用户。
  • 机器学习方法
    • option-b-ml.py通过SQL查询识别包含亵渎性文本的回复。
    • option-c-clusters.py使用word2vec和k-means聚类分析。
    • option-d-hierarchy.py设置类别,进行层次/凝聚聚类分析。
  • 可视化environment-tweet-charts.py收集环境相关和人身攻击主题的推文及其时间戳,用于可视化展示。

许可证

数据集脚本采用MIT许可证。注意,此方法未使用Twitter官方API,可能违反Twitter的服务条款,且可能遗漏部分推文,受Twitter界面更改影响可能失效。

搜集汇总
数据集介绍
main_image_url
构建方式
AOC Reply Dataset的构建基于对Rep. Alexandria Ocasio-Cortez(AOC)在Twitter上的回复进行收集和分析。由于Twitter API不支持直接抓取回复,数据集作者采用了GreaseMonkey/TamperMonkey浏览器扩展的用户脚本(scan.js)进行数据抓取。每个AOC的原始推文或转发的回复被存储为单独的JSON文件,这些文件随后被整合为两个CSV文件,以便于进一步的分析和处理。
特点
该数据集的特点在于其专注于政治讨论中的极端言论,特别是针对AOC的回复。数据集包含了大量的回复数据,这些数据被用于机器学习和自然语言处理任务,以识别和分类潜在的恶意用户或自动化账户(bots)。数据集的结构设计允许用户通过多种机器学习方法进行分析,包括监督学习和无监督学习,以及文本聚类和层次聚类。
使用方法
使用AOC Reply Dataset时,用户可以通过提供的Python脚本进行数据预处理和分析。数据集支持多种分析方法,包括基本的推文计数、文本分析、以及使用word2vec和k-means聚类进行的高级文本分析。此外,数据集还提供了环境推文和时间戳的可视化工具,帮助用户更直观地理解数据。用户应注意到,由于数据集是通过非官方API抓取的,使用时需遵守Twitter的服务条款,并注意可能的数据不完整或界面变化带来的影响。
背景与挑战
背景概述
AOC Reply Dataset 是一个聚焦于美国众议员 Alexandria Ocasio-Cortez(AOC)在 Twitter 上的回复数据的数据集。该数据集由独立研究人员于 2020 年左右创建,旨在通过分析 AOC 推文下的回复,探讨政治讨论中的网络行为,尤其是针对恶意用户和疑似机器人账户的识别问题。AOC 的推文因其政治敏感性,常常成为激烈讨论的焦点,吸引了大量用户参与,其中不乏带有攻击性或疑似自动化行为的账户。该数据集为研究社交媒体中的政治对话、网络暴力以及自动化账户检测提供了重要的数据支持,对政治学、社会学和计算机科学等领域具有广泛的研究价值。
当前挑战
AOC Reply Dataset 的构建和应用面临多重挑战。首先,Twitter 的 API 限制使得数据采集变得复杂,尤其是在回复数据的获取上,研究人员不得不依赖浏览器脚本进行爬取,这不仅效率低下,还可能违反 Twitter 的服务条款。其次,数据集的核心研究问题——识别恶意用户和疑似机器人账户——本身具有高度复杂性,因为恶意行为的表现形式多样,且自动化账户的行为模式不断演变。此外,数据集的构建过程中还面临数据完整性和准确性的挑战,例如由于 Twitter 的界面更新,部分回复可能无法被完整抓取。这些挑战不仅影响了数据集的质量,也为后续的机器学习和数据分析任务增加了难度。
常用场景
经典使用场景
AOC Reply Dataset 主要用于分析社交媒体上的政治讨论,特别是针对美国众议员 Alexandria Ocasio-Cortez 的推特回复。该数据集通过收集和分析大量回复,帮助研究者理解网络政治讨论中的用户行为模式,尤其是针对极端言论和疑似机器人账号的识别。
解决学术问题
该数据集解决了社交媒体研究中常见的几个学术问题,包括如何有效识别和分类网络上的恶意言论、机器人账号的检测以及政治讨论中的情绪分析。通过机器学习和自然语言处理技术,研究者可以深入探讨网络言论的真实性和影响力,为社交媒体平台的治理提供科学依据。
衍生相关工作
基于 AOC Reply Dataset,研究者们开发了多种机器学习和自然语言处理模型,用于自动化识别网络上的恶意言论和机器人账号。这些工作不仅推动了社交媒体内容审核技术的发展,还为政治学和传播学领域提供了新的研究视角。例如,一些研究利用该数据集训练的分类模型,成功应用于其他政治人物的社交媒体分析中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作