POLAR
收藏arXiv2025-05-27 更新2025-05-29 收录
下载链接:
http://arxiv.org/abs/2505.20624v1
下载链接
链接失效反馈官方服务:
资源简介:
POLAR是一个多语言、多文化、多事件的在线极化数据集,包含超过23k个实例,涵盖七种语言,来自多样化的在线平台和真实世界的事件。该数据集的极化现象沿三个轴进行标注:存在性、类型和表现形式。数据集用于微调多语言预训练语言模型,并在少样本和零样本场景下评估大型语言模型。
提供机构:
University of Hamburg
创建时间:
2025-05-27
搜集汇总
数据集介绍

构建方式
POLAR数据集的构建采用了多语言、多文化和多事件的策略,覆盖了七种语言,包括资源较少的阿姆哈拉语和豪萨语。数据来源于多样化的在线平台,如Twitter/X、Facebook、BlueSky、Reddit以及本地新闻媒体。通过动态关键词驱动的方法,专家团队针对每种语言和文化背景精心设计了关键词列表,确保数据涵盖不同地区和事件的真实讨论。标注过程结合了众包和专业社区标注者的混合策略,使用POTATO和Label Studio等工具,确保标注质量。标注内容包括极化存在性、极化类型(如政治、宗教、种族等)和极化表现形式(如刻板印象、极端语言等),并通过多轮培训和反馈机制提升标注一致性。
特点
POLAR数据集以其多语言、多文化和多事件的特性脱颖而出,涵盖了七种语言,包括低资源语言,如阿姆哈拉语和豪萨语。数据集的极化标注分为三个层次:存在性、类型和表现形式,为研究提供了丰富的分析维度。不同语言和文化背景下的极化表现差异显著,例如阿姆哈拉语和乌尔都语的极化率较高,而豪萨语和阿拉伯语的极化率较低。数据集还揭示了极化类型和表现形式的多样性,如政治极化在德语和阿姆哈拉语中占主导,而西班牙语和乌尔都语则表现出更多的身份认同极化。这些特点使得POLAR成为研究跨文化、跨语言极化的理想资源。
使用方法
POLAR数据集支持三种主要任务:二元极化检测、极化类型分类和极化表现形式识别。研究人员可以通过微调多语言预训练模型(如InfoXLM、LaBSE、RemBERT等)在单语和跨语种设置下进行实验。此外,数据集还适用于评估大型语言模型(如GPT4o、LLAMA-3.1-8B等)在零样本和少样本场景下的性能。使用POLAR时,建议结合具体语言和文化的背景知识,以充分利用其多维度标注的优势。数据集的70%用于训练,10%用于验证,20%用于测试,确保实验结果的可靠性。
背景与挑战
背景概述
POLAR数据集由麦考瑞大学、汉堡大学等机构的跨学科团队于2025年创建,旨在解决计算社会科学领域对多语言、多文化背景下在线极化现象研究的不足。该数据集涵盖7种语言超过23k条来自社交媒体和新闻平台的实例,首次系统性地标注了极化现象的三种维度:存在性、类型和表现形式。其创新性体现在突破传统英语中心主义研究范式,特别关注阿姆哈拉语、豪萨语等低资源语言,并覆盖提格雷战争、移民危机等全球性事件的多元文化语境,为数字极化研究提供了首个标准化跨文化基准。
当前挑战
POLAR数据集面临双重挑战:在领域问题层面,现有模型对极化类型(政治/宗教/种族等)和表现形式(污名化/去人性化等)的细粒度识别准确率显著低于二元检测,揭示出现有NLP方法在捕捉文化特异性修辞模式上的局限性。在构建过程中,团队需克服低资源语言标注资源匮乏、跨文化语境下极化定义不一致等难题,为此开发了适配不同文化的混合标注方案,并通过多轮训练和质量控制使标注者间一致性达到Fleiss' Kappa 0.49-0.65。特定语言如乌尔都语因宗教政治话题敏感性,初始标注一致性仅0.05,需通过教育背景筛选等强化措施提升至0.30。
常用场景
经典使用场景
POLAR数据集作为首个多语言、多文化、多事件的在线极化检测基准,其经典使用场景主要集中在跨文化社交媒体内容分析领域。该数据集通过覆盖7种语言的23k条标注实例,为研究者提供了分析不同社会背景下政治、宗教、种族等维度极化现象的统一框架。特别是在涉及武装冲突(如提格雷战争)和社会运动(如堕胎权争议)等敏感事件的跨平台话语分析中,POLAR支持对极化内容的存在性、类型和表现形式的细粒度检测。
衍生相关工作
基于POLAR数据集衍生的经典工作主要集中在三个方向:在模型架构方面,催生了融合文化特征嵌入的X-POLAR等跨语言极化检测模型;在方法论层面,推动了基于课程学习的渐进式标注框架CULTURAL-CURRI,有效解决了低资源语言标注一致性难题;在应用研究领域,激发了事件感知的极化传播分析系统EventPolar,该系统通过结合事态发展时间线来预测极化强度波动。这些工作共同推进了计算社会科学领域对数字化极化的多维度理解。
数据集最近研究
最新研究方向
随着全球数字化进程加速,在线极化现象已成为威胁社会凝聚力的重要因素。POLAR数据集作为首个多语言、多文化、多事件的细粒度极化检测基准,近期研究聚焦于三大前沿方向:跨语言模型的极化模式迁移能力、文化语境对极化表征的影响机制,以及大语言模型在低资源语言中的零样本适应性能。该数据集通过覆盖7种语言的23k实例,揭示了政治冲突地区(如埃塞俄比亚提格雷战争)与宗教分歧区域(如巴基斯坦)特有的极化表达模式,为计算社会科学领域提供了关键的研究范式。特别是在俄乌冲突、加沙战争等国际事件影响下,数据集所展现的事件驱动型极化特征,为构建具有文化敏感性的内容审核系统提供了实证基础。
相关研究论文
- 1POLAR: A Benchmark for Multilingual, Multicultural, and Multi-Event Online PolarizationUniversity of Hamburg · 2025年
以上内容由遇见数据集搜集并总结生成



