Capitalism news dataset
收藏github2026-02-07 更新2026-02-22 收录
下载链接:
https://github.com/amb-code/capitalism-news-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包括一个负面类别(0)和12个正面类别(1-12),涉及经济和社会相关的新闻。为了方便构建分类算法,数据集中添加了类别0。正面类别包括抗议、工人斗争、劳动关系、生活条件等。数据集包含约100,000条新闻,其中部分由人工标注,部分由BERT模型标注。
This dataset includes one negative class (0) and twelve positive classes (1–12), covering economic and social news. To facilitate the construction of classification algorithms, class 0 is added to the dataset. The positive classes cover protest, labor struggles, labor relations, living conditions, and other related topics. The dataset contains approximately 100,000 news articles, some of which are manually annotated while others are annotated by the BERT model.
创建时间:
2026-02-05
原始信息汇总
资本主义新闻数据集概述
数据集基本信息
- 数据集名称:Capitalism news dataset
- 核心主题:关于社会冲突与社会矛盾的新闻类别
- 数据规模:约100,000条新闻
类别体系
数据集包含一个负类(0)和十二个正类(1-12),均涉及经济与社会议题。为便于构建分类算法,数据集中添加了类别0。
正类名称(含俄语对照)
- Protest (rus, Протест)
- Workers’ struggle (rus, Борьба трудящихся)
- Labor relations (rus, Трудовые отношения)
- Living conditions (rus, Условия жизни)
- Decline of sectors (rus, Упадок сфер)
- Creditworthiness (rus, Закредитованность)
- Inequality (rus, Неравенство)
- Repression (rus, Репрессии)
- Atlas Shrugged (rus, Будни Атлантов)
- Economic relations (rus, Экономические отношения)
- Combat operations (rus, Боевые действия)
- Other (rus, Прочее)
数据列描述
- class : 整数类型,取值范围 {0,1,2,...12}
- label : 类别名称
- text : 句子文本
- keywords : 文本中主要词汇的原形
- url : 新闻的互联网链接地址
- class-validation : 标注检查的类型
数据来源
- https://github.com/amb-code/capitalism-news-dataset
- https://www.kaggle.com/datasets/ireshin/capitalism-news-dataset
构建方法
步骤一:人工标注
- 任务:对部分GDDR数据集(https://www.kaggle.com/datasets/ireshin/gddr-news)进行多类别任务的人工标注。
- 结果:获得约10,000条类别>0(正类)的新闻和约20,000条类别=0(负类)的新闻。
步骤二:模型训练
- 训练了4个BERT模型:2个用于二元分类(0或>0),2个用于多类别分类(0, 1, ..., 12)。
步骤三:扩展负类数据
- 使用随机Kaggle新闻数据集,通过步骤二中训练的2个二元BERT分类器进行标注。
- 结果:获得约60,000条类别=0(负类)的新闻。
步骤四:持续收集与标注正类数据
- 时间范围:贯穿2025年。
- 方法:从全球各类媒体收集带URL的新闻,并使用步骤二中训练的4个BERT模型进行标注。
- 结果:获得约10,000条类别>0(正类)的新闻。
最终数据构成
- 类别>0(正类)新闻总数:约20,000条(其中约10,000条为人工标注,约10,000条为BERT模型标注)。
- 类别=0(负类)新闻总数:约80,000条(其中约20,000条为人工标注,约60,000条为BERT模型标注)。
搜集汇总
数据集介绍

构建方式
在新闻文本挖掘领域,构建高质量标注数据集是支撑社会冲突与经济矛盾分析的基础。该数据集通过多阶段混合标注策略实现:首先从GDDR数据集中手工标注部分样本,形成初始多类别标注数据;随后训练四组BERT模型,包括二分类与多分类架构,用于自动化扩展标注;接着利用这些模型对随机新闻数据集进行二分类标注,筛选出约六万条负类样本;最后在2025年间持续从全球媒体收集新闻,通过四模型集成标注约一万条正类样本,最终整合约十万条新闻,形成覆盖十三类社会议题的语料库。
特点
该数据集在社会科学计算研究中展现出鲜明的结构性特征。其核心在于构建了一个包含一个负类与十二个正类的多层次分类体系,正类涵盖抗议活动、劳工斗争、生活条件、经济不平等等社会冲突维度,每个类别均提供俄语与英语标签对照。数据条目不仅包含分类标签与原始文本,还附有关键词归一化形式、来源链接及标注验证类型,实现了从语义内容到元信息的全面覆盖。这种多维度标注框架为深入分析资本主义社会中的矛盾表征提供了细粒度的研究素材。
使用方法
对于从事社会计算与新闻分类的研究者而言,该数据集支持多种分析路径。用户可直接利用文本与标签字段训练多类别分类模型,探索社会冲突话题的自动识别;结合关键词字段可进行主题建模与语义网络分析,揭示不同社会矛盾之间的关联模式;通过来源链接能够追溯新闻语境,辅助跨媒体比较研究。数据集中的标注验证字段为评估模型鲁棒性提供了参考基准,而双语标签设计则便利了跨语言研究。整体上,该资源适用于自然语言处理、社会学量化研究及媒体内容分析等多个交叉学科领域。
背景与挑战
背景概述
在数字媒体与社会科学交叉研究领域,Capitalism news dataset 于2025年由研究团队通过系统化数据收集与标注流程构建而成。该数据集聚焦于经济与社会议题,旨在捕捉全球新闻报道中反映社会冲突与矛盾的多类别文本信息。其核心研究问题在于通过自然语言处理技术,对涉及抗议、劳工关系、不平等、经济关系等十二类正面主题及一个负面类别的新闻进行自动分类,从而为分析资本主义社会动态提供结构化数据支持。该数据集的创建深化了计算社会科学在文本挖掘方面的应用,为理解媒体叙事与社会经济现象之间的关联提供了重要资源。
当前挑战
Capitalism news dataset 所针对的领域问题在于从新闻文本中识别并分类复杂的社会经济矛盾,这一任务面临语义模糊性与类别交叉的挑战,例如“抗议”与“劳工斗争”在语境中可能高度重叠,增加了分类模型的区分难度。在构建过程中,数据集依赖于BERT模型的集成标注,虽然提升了规模效率,但自动标注可能引入噪声与偏差,且人工标注部分规模有限,可能影响类别平衡与标注一致性。此外,数据来源涵盖全球媒体,语言与文化差异对文本的归一化处理提出了额外要求。
常用场景
经典使用场景
在社会科学与计算语言学的交叉领域,Capitalism news dataset 为研究社会冲突与经济矛盾提供了丰富的文本资源。该数据集最经典的使用场景在于训练和评估多类别新闻分类模型,特别是针对涉及抗议、劳工斗争、不平等、经济关系等12个正面类别的社会议题。通过结合人工标注与BERT模型自动标注的混合方法,数据集确保了标注质量与规模,使得研究人员能够深入探索新闻文本中隐含的社会经济动态,为自动化内容分析奠定了坚实基础。
实际应用
在实际应用层面,Capitalism news dataset 可服务于媒体监控、政策分析与风险评估等领域。新闻机构或研究机构可利用该数据集构建自动化工具,实时追踪全球媒体中关于社会冲突与经济矛盾的报道,识别潜在的社会不稳定因素。例如,在金融风险评估中,模型可以分析新闻中“信用度”或“行业衰退”类别的趋势,预警经济波动;同时,非政府组织也能借助这些工具监测人权或劳工状况,支持倡导与社会干预行动。
衍生相关工作
基于Capitalism news dataset,已衍生出多项经典研究工作,主要集中在改进文本分类算法与社会议题分析上。例如,研究人员利用该数据集训练了多个BERT模型变体,提升了多类别新闻分类的准确性与鲁棒性;同时,一些研究将其与其他数据集(如GDDR新闻数据集)结合,探索社会矛盾在跨文化或跨时期的演变模式。这些工作不仅推动了自然语言处理技术的创新,还深化了对资本主义社会动态的计算理解,为后续的跨领域应用提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



