PartisanLens
收藏github2025-06-06 更新2025-06-07 收录
下载链接:
https://github.com/MichJoM/PartisanLens
下载链接
链接失效反馈官方服务:
资源简介:
PartisanLens是一个多语言数据集,专注于超党派、立场检测和PRCT,包含人工编写的理由和详细注释。数据集包括超党派注释、立场检测(支持、反对或中立)和PRCT标签(人口替代阴谋论)。每个样本包含政治文本段、任务特定标签(超党派、立场、PRCT)和跨度注释(负载语言、名称调用和恐惧诉求)。
PartisanLens is a multilingual dataset focused on hyperpartisanship, stance detection and PRCT, with human-written justifications and detailed annotations. The dataset includes hyperpartisanship annotations, stance detection labels (support, oppose or neutral) and PRCT tags (population replacement conspiracy theories). Each sample contains political text segments, task-specific labels (hyperpartisanship, stance, PRCT) and span annotations (loaded language, name-calling and fear appeals).
创建时间:
2025-06-05
原始信息汇总
PartisanLens 数据集概述
数据集简介
- 名称: PartisanLens
- 类型: 多语言超党派和阴谋论移民叙事数据集
- 核心任务:
- 超党派检测
- 立场检测(支持/反对/中立)
- 人口替代阴谋论(PRCT)识别
数据内容
- 文本类型: 政治文本片段
- 标注维度:
- 超党派标签(显性党派语言)
- 移民立场标签(pro/against/neutral)
- PRCT标签(人口替代阴谋论)
- 语言特征标注(煽动性语言、人身攻击、恐惧诉求)
文件结构
partisanlens/ ├── data/ # 原始数据、关键词和解释 ├── data_curation/ # 数据采样与分析脚本 │ ├── analysis/ # 数据分析脚本 │ └── DPP_extraction.py ├── experiments/ # 模型实验脚本 │ ├── build-templated-rationales.py │ ├── rephrase-rationales.py │ ├── inference.py │ └── finetune.py └── annotation_guidelines.pdf # 标注规范文档
实验功能
1. 解释重构 (rephrase-rationales.py)
- 功能: 使用LLM重构模板化解释
- 输入要求: 需包含id/text/templated_rationales及各任务gold_label的CSV/TSV
- 输出: JSON格式的逐步解释
2. 推理预测 (inference.py)
- 模式:
rationales: 生成推理链解释labels: 直接预测分类标签
- 支持模型: llama3.1-8b/llama3.3-70/nemo
3. 模型微调 (finetune.py)
- 微调选项:
- 带解释监督的微调
- 纯标签分类微调
- 模型支持: 同推理模块
应用场景
- 可解释性AI研究
- 政治偏见与立场分析
- 带解释监督的模型训练
补充资料
- 标注规范: annotation_guidelines.pdf
- 数据统计: data_curation/analysis/
- 引用信息: 论文待发表(暂缺正式引用格式)
搜集汇总
数据集介绍

构建方式
PartisanLens数据集聚焦于欧洲媒体中的极端党派性和阴谋论移民叙事,通过多语言文本片段构建而成。数据采集过程严格遵循标注指南,涵盖政治文本片段、任务特定标签(如极端党派性、立场和人口替代阴谋论)以及语言风格标注。标注工作由专业团队完成,确保每个样本均包含详细的理性解释和语言风格注释,如煽动性语言、人身攻击和恐惧诉求等。数据集的构建还结合了统计分析脚本和抽样策略,以保证数据的代表性和平衡性。
特点
PartisanLens数据集以其多语言特性和丰富的标注层次脱颖而出。它不仅标注了文本的极端党派性和立场(支持、反对或中立),还专门针对人口替代阴谋论(PRCT)进行了标注。每个样本均附带详细的理性解释和语言风格标注,为研究提供了多维度的分析视角。数据集还提供了自动生成和人工优化的理性解释,支持模型在生成解释时的多样性和自然性。这些特点使其成为研究政治偏见、立场分析和模型可解释性的重要资源。
使用方法
PartisanLens数据集的使用方法灵活多样,支持从基础分类到复杂解释生成的多类任务。用户可通过提供的Python脚本进行零样本或少样本推理,生成自然语言解释或直接预测标签。数据集还支持模型微调,用户可选择是否监督生成理性解释。使用前需加载数据集文件(CSV或TSV格式),并确保包含必要的列(如文本、标签和理性解释)。数据分析和可视化脚本位于data_curation目录,便于用户深入了解数据分布和特性。标注指南(annotation_guidelines.pdf)为任务定义和标注协议提供了详细说明。
背景与挑战
背景概述
PartisanLens数据集是近年来欧洲政治传播与计算社会科学交叉领域的重要研究成果,由西班牙加利西亚大学系统CITIC研究中心联合多所学术机构共同构建。该数据集聚焦于欧洲媒体中关于移民议题的极端党派言论与阴谋论叙事,旨在为政治传播学、自然语言处理等学科提供高质量的标注语料。数据集创新性地整合了三种关键标注维度——极端党派性检测、立场分类以及人口替代阴谋论识别,并辅以人工撰写的解释性依据,为研究政治话语中的偏见传播机制提供了多维分析框架。其构建得到了欧盟地平线计划等多项科研基金的资助,体现了跨学科合作解决社会敏感议题的学术趋势。
当前挑战
该数据集面临的核心挑战体现在两个层面:在领域问题层面,政治文本的极端党派性往往隐含于修辞策略与语境关联中,传统分类模型难以捕捉'指名攻击'、'恐惧诉求'等微妙语言特征;阴谋论文本的识别则需克服语义模糊性与文化背景依赖性。在构建过程层面,标注者需要平衡主观判断与标注一致性,特别是涉及跨语言样本时,西班牙语、英语等多语种文本的意识形态表达差异增加了标注复杂度。此外,生成可解释的理性依据要求标注者兼具语言学素养与政治学知识,这种复合型人才稀缺导致数据标注成本显著提升。
常用场景
经典使用场景
在政治传播学和计算社会科学领域,PartisanLens数据集为研究者提供了一个独特的视角,用于分析欧洲媒体中的极端党派倾向和阴谋论叙事。通过其详尽的多语言文本标注,研究者能够深入探讨移民议题中的立场表达和语言风格,揭示媒体内容背后的意识形态倾向。
实际应用
在实际应用中,PartisanLens被广泛用于媒体监测系统,帮助识别和追踪带有偏见或阴谋论色彩的政治言论。政府部门和智库机构利用该数据集开发的分析工具,能够更准确地评估媒体报道的客观性,为政策制定提供数据支持。
衍生相关工作
基于PartisanLens数据集,研究者们已开展了多项重要工作,包括开发基于大语言模型的立场检测系统、构建政治文本可解释性分析框架等。这些衍生研究不仅推动了计算政治学的发展,也为跨学科研究提供了新的方法论工具。
以上内容由遇见数据集搜集并总结生成



