ai-layoff-discourse-amplification

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/joyboseroy/ai-layoff-discourse-amplification

下载链接

链接失效反馈

官方服务：

资源简介：

AI Layoff Discourse Amplification Dataset 是一个专门用于分析人工智能裁员相关社会媒体话语的数据集，旨在支持论文《Attention Asymmetry in AI Layoff Discourse on X: A Computational Analysis of Capital vs Labour Amplification》的研究。该数据集包含两个主要部分：1) 推文数据：收集了2026年5月20日至27日期间来自X平台的763条推文ID，每条记录包含推文ID、语料标签（capital/labour）、账户句柄和日期。根据X开发者政策，仅提供推文ID，需通过X API v2重新水化获取完整推文内容。2) Reddit数据：包含来自10个子版块的647条Reddit帖子，涵盖过去一年的热门帖子，提供完整的帖子数据，包括帖子ID、子版块、语料标签、标题、日期、分数、评论数、放大分数、归一化放大分数和平台信息。语料标签定义明确：capital标签表示来自将人工智能视为机会或转型框架的账户的帖子，labour标签表示来自将人工智能视为替代或威胁框架的账户的帖子。该数据集适用于计算社会科学、话语分析、媒体放大效应研究以及人工智能社会影响评估等任务。

The AI Layoff Discourse Amplification Dataset is a specialized dataset for analyzing social media discourse related to AI layoffs, designed to support the research of the paper Attention Asymmetry in AI Layoff Discourse on X: A Computational Analysis of Capital vs Labour Amplification. The dataset consists of two main parts: 1) Tweet data: It includes 763 tweet IDs from the X platform collected between May 20 and 27, 2026, with each record containing tweet ID, corpus label (capital/labour), account handle, and date. According to X Developer Policy, only tweet IDs are provided, and full tweet content must be rehydrated via the X API v2. 2) Reddit data: It contains 647 Reddit posts from 10 subreddits, covering popular posts from the past year, providing complete post data including post ID, subreddit, corpus label, title, date, score, comment count, amplification score, normalized amplification score, and platform information. The corpus labels are clearly defined: the capital label indicates posts from accounts framing AI as an opportunity or transformation, while the labour label indicates posts from accounts framing AI as a replacement or threat. This dataset is suitable for tasks in computational social science, discourse analysis, media amplification effects research, and AI social impact assessment.

创建时间：

2026-05-28

原始信息汇总

数据集概述

AI Layoff Discourse Amplification Dataset 是一个用于研究社交媒体上关于人工智能裁员话语的关注不对称性的数据集，对应论文 "Attention Asymmetry in AI Layoff Discourse on X: A Computational Analysis of Capital vs Labour Amplification"。

数据内容

tweet_ids.csv
包含从 X（原 Twitter）平台收集的 763 条推文的 ID，收集时间为 2026 年 5 月 20 日至 27 日。
列字段：tweet_id（推文ID）、corpus_label（语料标签：capital/labour）、account_handle（账户名）、date（日期）。
注意：按 X 开发者政策，仅提供推文 ID，需要使用 X API v2 进行水合（rehydrate）以获取完整推文对象。推荐水合工具：https://github.com/DocNow/hydrator
reddit_posts.csv
包含来自 10 个子版块的 647 条 Reddit 帖子（选取过去一年内的热门帖子）。
提供完整帖子的数据，包括标题、得分、评论数、放大分数等。
列字段：post_id（帖子ID）、subreddit（子版块）、corpus（语料）、title（标题）、date（日期）、score（得分）、num_comments（评论数）、amplification（放大分数）、norm_amp（归一化放大分数）、platform（平台）。

语料标签说明

capital：来自将人工智能视为机遇/转型的账户的帖子。
labour：来自将人工智能视为替代/威胁的账户的帖子。

许可证

MIT

搜集汇总

数据集介绍

构建方式

该数据集源自Joy Bose于2026年发表的论文《Attention Asymmetry in AI Layoff Discourse on X》，旨在探究X平台上关于AI裁员话语中的注意力不对称现象。数据集通过两阶段收集构建：首先，从X平台抓取2026年5月20日至27日间的763条推文，仅保留推文ID、语料标签（资本/劳工）、账号句柄及日期信息；其次，从10个Reddit子版块中提取647篇精选帖子，涵盖标题、评分、评论数、放大分数等完整字段。所有推文ID遵循X开发者政策共享，可通过X API v2进行水化还原，而Reddit数据则直接以完整形式纳入，为后续分析提供多平台视角。

使用方法

研究人员可首先利用推文ID通过Hydrator工具调用X API v2获取完整推文对象，进而计算每条推文的转发、点赞等互动指标。随后，结合Reddit帖子中的放大分数等量化字段，构建回归模型或图注意力网络，以检验资本与劳工话语在传播广度上的差异。数据集附带的语料标签可直接作为监督学习中的分类目标，或用于对比分析不同账号类型的话语策略。论文中的分析代码已开源，便于复现实验或扩展至其他时间窗口与平台的数据集。

背景与挑战

背景概述

在人工智能技术加速渗透各行各业的背景下，AI引发的裁员话语（AI Layoff Discourse）在社交媒体平台上的传播与扭曲，成为计算社会科学的前沿议题。Bose（2026）基于X平台与Reddit上的1,410条帖文，构建了AI裁员话语放大数据集，旨在探究资本导向与劳工导向话语在传播中的注意力不对称现象。该数据集由Joy Bose独立创建，并发表于2026年的相关研究论文中，聚焦于资本方将AI视为机遇与转型，而劳工方则强调其替代与威胁。通过跨平台的数据整合与标签注释，揭示了不同利益主体在舆论场域中的不均衡放大效应，对理解技术变迁中的社会情绪、媒体偏见及公众感知具有重要意义。

当前挑战

该数据集所解决的领域问题在于，现有研究多关注AI的经济影响或技术伦理，鲜有作品系统量化资本与劳工话语在社交传播中的不对称性。构建过程中的挑战体现在三个方面：其一，数据采集面临平台限制，仅能通过X API v2获取推文ID并手动回水化（rehydrate），增加了数据完整性的风险；其二，语料标注涉及主观性强的“资本/劳工”二元分类，需克服话语框架的模糊性与语境依赖性；其三，跨平台数据整合（X与Reddit的文本结构差异）以及归一化放大分数的计算，均对数据清洗与归一化方法提出了高要求。

常用场景

经典使用场景

在人工智能与劳动力市场交叉研究的背景下，该数据集为分析AI裁员话语在社交媒体中的不对称传播提供了宝贵资源。其经典使用场景在于利用X平台（原Twitter）的推文ID和Reddit帖子数据，结合资本与劳动两种对立叙事框架，量化不同立场下话语的传播路径与放大效应。研究者可借助这些数据，探究AI技术冲击下社会舆论的极化现象，揭示权力结构如何塑造公众认知。

解决学术问题

该数据集直面学术界关于AI技术社会影响争议的核心问题——即资本导向叙事与劳动者权益叙事在媒介传播中的注意力分配失衡。通过提供标注了资本与劳动视角的社交媒体语料，它解决了如何定量测量话语权力不对称的方法论困境。这项工作的意义在于，首次将传播学中的注意力不对称理论引入AI裁员研究，为理解技术变革中的社会不平等提供了实证基础，推动了跨学科视角下AI伦理与劳动研究的融合。

实际应用

在实际应用中，该数据集可为政策制定者、企业公关部门以及劳动者权益组织提供决策支持。例如，政府机构可利用其分析结果制定更加平衡的AI相关沟通策略，避免单一叙事主导公众情绪；企业人力部门可基于数据调整裁员公告的表述方式，缓解劳资冲突；而研究机构则能借助该数据集训练舆论监测模型，实时追踪AI就业冲击事件中不同立场的传播动态，实现风险预警。

数据集最近研究

ai-layoff-discourse-amplification

数据集概述

数据内容

语料标签说明

相关资源

许可证