five

ai-layoff-discourse-amplification

收藏
Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/joyboseroy/ai-layoff-discourse-amplification
下载链接
链接失效反馈
官方服务:
资源简介:
AI Layoff Discourse Amplification Dataset 是一个专门用于分析人工智能裁员相关社会媒体话语的数据集,旨在支持论文《Attention Asymmetry in AI Layoff Discourse on X: A Computational Analysis of Capital vs Labour Amplification》的研究。该数据集包含两个主要部分:1) 推文数据:收集了2026年5月20日至27日期间来自X平台的763条推文ID,每条记录包含推文ID、语料标签(capital/labour)、账户句柄和日期。根据X开发者政策,仅提供推文ID,需通过X API v2重新水化获取完整推文内容。2) Reddit数据:包含来自10个子版块的647条Reddit帖子,涵盖过去一年的热门帖子,提供完整的帖子数据,包括帖子ID、子版块、语料标签、标题、日期、分数、评论数、放大分数、归一化放大分数和平台信息。语料标签定义明确:capital标签表示来自将人工智能视为机会或转型框架的账户的帖子,labour标签表示来自将人工智能视为替代或威胁框架的账户的帖子。该数据集适用于计算社会科学、话语分析、媒体放大效应研究以及人工智能社会影响评估等任务。

The AI Layoff Discourse Amplification Dataset is a specialized dataset for analyzing social media discourse related to AI layoffs, designed to support the research of the paper Attention Asymmetry in AI Layoff Discourse on X: A Computational Analysis of Capital vs Labour Amplification. The dataset consists of two main parts: 1) Tweet data: It includes 763 tweet IDs from the X platform collected between May 20 and 27, 2026, with each record containing tweet ID, corpus label (capital/labour), account handle, and date. According to X Developer Policy, only tweet IDs are provided, and full tweet content must be rehydrated via the X API v2. 2) Reddit data: It contains 647 Reddit posts from 10 subreddits, covering popular posts from the past year, providing complete post data including post ID, subreddit, corpus label, title, date, score, comment count, amplification score, normalized amplification score, and platform information. The corpus labels are clearly defined: the capital label indicates posts from accounts framing AI as an opportunity or transformation, while the labour label indicates posts from accounts framing AI as a replacement or threat. This dataset is suitable for tasks in computational social science, discourse analysis, media amplification effects research, and AI social impact assessment.
创建时间:
2026-05-28
原始信息汇总

数据集概述

AI Layoff Discourse Amplification Dataset 是一个用于研究社交媒体上关于人工智能裁员话语的关注不对称性的数据集,对应论文 "Attention Asymmetry in AI Layoff Discourse on X: A Computational Analysis of Capital vs Labour Amplification"

数据内容

  • tweet_ids.csv
    包含从 X(原 Twitter)平台收集的 763 条推文的 ID,收集时间为 2026 年 5 月 20 日至 27 日。
    列字段:tweet_id(推文ID)、corpus_label(语料标签:capital/labour)、account_handle(账户名)、date(日期)。
    注意:按 X 开发者政策,仅提供推文 ID,需要使用 X API v2 进行水合(rehydrate)以获取完整推文对象。推荐水合工具:https://github.com/DocNow/hydrator

  • reddit_posts.csv
    包含来自 10 个子版块的 647 条 Reddit 帖子(选取过去一年内的热门帖子)。
    提供完整帖子的数据,包括标题、得分、评论数、放大分数等。
    列字段:post_id(帖子ID)、subreddit(子版块)、corpus(语料)、title(标题)、date(日期)、score(得分)、num_comments(评论数)、amplification(放大分数)、norm_amp(归一化放大分数)、platform(平台)。

语料标签说明

  • capital:来自将人工智能视为机遇/转型的账户的帖子。
  • labour:来自将人工智能视为替代/威胁的账户的帖子。

相关资源

  • 论文:https://arxiv.org/abs/2605.29367

  • 代码:https://gitlab.com/joyboseroy/attention-asymmetry

  • 引用格式

    @misc{bose2026attention, title={Attention Asymmetry in AI Layoff Discourse on X}, author={Bose, Joy}, year={2026}, eprint={2605.29367}, archivePrefix={arXiv} }

许可证

MIT

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Joy Bose于2026年发表的论文《Attention Asymmetry in AI Layoff Discourse on X》,旨在探究X平台上关于AI裁员话语中的注意力不对称现象。数据集通过两阶段收集构建:首先,从X平台抓取2026年5月20日至27日间的763条推文,仅保留推文ID、语料标签(资本/劳工)、账号句柄及日期信息;其次,从10个Reddit子版块中提取647篇精选帖子,涵盖标题、评分、评论数、放大分数等完整字段。所有推文ID遵循X开发者政策共享,可通过X API v2进行水化还原,而Reddit数据则直接以完整形式纳入,为后续分析提供多平台视角。
使用方法
研究人员可首先利用推文ID通过Hydrator工具调用X API v2获取完整推文对象,进而计算每条推文的转发、点赞等互动指标。随后,结合Reddit帖子中的放大分数等量化字段,构建回归模型或图注意力网络,以检验资本与劳工话语在传播广度上的差异。数据集附带的语料标签可直接作为监督学习中的分类目标,或用于对比分析不同账号类型的话语策略。论文中的分析代码已开源,便于复现实验或扩展至其他时间窗口与平台的数据集。
背景与挑战
背景概述
在人工智能技术加速渗透各行各业的背景下,AI引发的裁员话语(AI Layoff Discourse)在社交媒体平台上的传播与扭曲,成为计算社会科学的前沿议题。Bose(2026)基于X平台与Reddit上的1,410条帖文,构建了AI裁员话语放大数据集,旨在探究资本导向与劳工导向话语在传播中的注意力不对称现象。该数据集由Joy Bose独立创建,并发表于2026年的相关研究论文中,聚焦于资本方将AI视为机遇与转型,而劳工方则强调其替代与威胁。通过跨平台的数据整合与标签注释,揭示了不同利益主体在舆论场域中的不均衡放大效应,对理解技术变迁中的社会情绪、媒体偏见及公众感知具有重要意义。
当前挑战
该数据集所解决的领域问题在于,现有研究多关注AI的经济影响或技术伦理,鲜有作品系统量化资本与劳工话语在社交传播中的不对称性。构建过程中的挑战体现在三个方面:其一,数据采集面临平台限制,仅能通过X API v2获取推文ID并手动回水化(rehydrate),增加了数据完整性的风险;其二,语料标注涉及主观性强的“资本/劳工”二元分类,需克服话语框架的模糊性与语境依赖性;其三,跨平台数据整合(X与Reddit的文本结构差异)以及归一化放大分数的计算,均对数据清洗与归一化方法提出了高要求。
常用场景
经典使用场景
在人工智能与劳动力市场交叉研究的背景下,该数据集为分析AI裁员话语在社交媒体中的不对称传播提供了宝贵资源。其经典使用场景在于利用X平台(原Twitter)的推文ID和Reddit帖子数据,结合资本与劳动两种对立叙事框架,量化不同立场下话语的传播路径与放大效应。研究者可借助这些数据,探究AI技术冲击下社会舆论的极化现象,揭示权力结构如何塑造公众认知。
解决学术问题
该数据集直面学术界关于AI技术社会影响争议的核心问题——即资本导向叙事与劳动者权益叙事在媒介传播中的注意力分配失衡。通过提供标注了资本与劳动视角的社交媒体语料,它解决了如何定量测量话语权力不对称的方法论困境。这项工作的意义在于,首次将传播学中的注意力不对称理论引入AI裁员研究,为理解技术变革中的社会不平等提供了实证基础,推动了跨学科视角下AI伦理与劳动研究的融合。
实际应用
在实际应用中,该数据集可为政策制定者、企业公关部门以及劳动者权益组织提供决策支持。例如,政府机构可利用其分析结果制定更加平衡的AI相关沟通策略,避免单一叙事主导公众情绪;企业人力部门可基于数据调整裁员公告的表述方式,缓解劳资冲突;而研究机构则能借助该数据集训练舆论监测模型,实时追踪AI就业冲击事件中不同立场的传播动态,实现风险预警。
数据集最近研究
最新研究方向
在人工智能引发的就业替代与劳动力变革成为全球焦点的当下,该数据集聚焦于X平台(前Twitter)上围绕AI裁员话语的注意力不对称现象,通过计算分析区分资本与劳动两方在话语传播中的差异化放大机制。研究结合社交媒体帖子与Reddit社区讨论,揭示了技术乐观主义叙事与劳动力威胁感知之间的结构性张力,为理解数字时代资本与技术精英如何主导公共话语、而劳动者声音可能被边缘化提供了量化证据。这一方向直指AI伦理与传播学的交叉前沿,对反思技术话语的公平性、引导负责任的技术叙事具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作