five

HebID

收藏
arXiv2025-08-21 更新2025-08-23 收录
下载链接:
https://github.com/guymorlan/hebid/
下载链接
链接失效反馈
官方服务:
资源简介:
HebID 是一个多标签希伯来语语料库,包含 5536 个句子,来自以色列政治家的 Facebook 帖子(2018 年 12 月至 2021 年 4 月),这些句子被手动标记为十二种微妙的社会身份(例如,右翼、极端正统、社会导向),这些身份基于调查数据。该数据集为研究希伯来语中的社会身份提供了全面的基础,并可以作为其他非英语政治语境类似研究的模型。

HebID is a multi-label Hebrew corpus consisting of 5,536 sentences sourced from Facebook posts of Israeli politicians spanning December 2018 to April 2021. These sentences were manually annotated with twelve nuanced social identities (e.g., right-wing, ultra-Orthodox, socially oriented) based on survey data. This dataset provides a comprehensive foundation for research on social identities in Hebrew, and can serve as a reference model for similar studies in other non-English political contexts.
提供机构:
耶路撒冷希伯来大学,以色列开放大学
创建时间:
2025-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在希伯来语政治文本分析领域,HebID数据集的构建采用了多阶段实证方法。基于以色列犹太人口的12轮面板调查(N=1,769),研究者通过专家咨询和问卷调查确定了12个最具显著性的社会身份类别,包括右翼、左翼、自由派等。从2018年12月至2021年4月期间以色列政治人物的64,174条Facebook帖文中,系统采样了5,536个句子,由两名希伯来语母语标注者进行多标签人工标注,平均科恩卡帕系数达0.77,确保了标注的一致性和可靠性。
使用方法
数据集的使用遵循多模态分析框架。研究者采用三类建模方法:多标签编码器模型、单标签编码器模型以及2B-9B参数的序列到序列大语言模型,其中希伯来语优化的DictaLM2.0模型取得最佳性能(宏观F1=0.743)。应用层面支持跨平台对比研究,可将训练好的分类器应用于政治人物的Facebook帖文和议会演讲分析,实现身份流行度计算、时间趋势追踪、身份捆绑模式挖掘以及性别差异量化,为比较精英话语与公众身份认知提供量化工具。
背景与挑战
背景概述
HebID数据集由耶路撒冷希伯来大学与以色列开放大学联合团队于2025年创建,旨在填补非英语政治文本中社会身份检测的研究空白。该数据集聚焦希伯来语政治话语分析,基于2018年12月至2021年4月以色列政客的5536条Facebook句子,采用专家定义与大规模调查相结合的12类社会身份标签(如右翼主义者、超正统派、社会导向者)。其创新性在于首次实现多标签希伯来语身份标注,并通过调查数据确保标签的社会显著性,为跨文化政治传播和计算社会科学提供了关键数据支撑。
当前挑战
该数据集核心挑战在于解决多标签希伯来语政治身份检测的复杂性:一是语言文化特异性导致模型需捕捉希伯来语语法结构及以色列政治语境中的身份表达模式;二是多标签标注中身份类别的共现与冲突问题(如左翼与自由主义同时出现);构建过程中面临标注一致性挑战(平均科恩卡帕系数0.77),以及基于5%调查阈值筛选身份类别时可能忽略低频但重要的身份表达。此外,数据源局限于犹太人群体的Facebook文本,未能覆盖阿拉伯裔公民或其他社交媒体平台,限制了身份表达的全面性。
常用场景
经典使用场景
在希伯来语政治文本分析领域,HebID数据集被广泛用于多标签社会身份检测任务。研究者利用该数据集训练序列到序列语言模型,如DictaLM2.0,以识别以色列政治人物在社交媒体和议会演讲中表达的12种细粒度社会身份,包括右翼主义者、左翼主义者、自由主义者和宗教极端正统派等身份标签。
解决学术问题
该数据集解决了非英语政治文本中多标签身份检测的学术空白,突破了以往英语中心化、单标签标注的局限。通过将专家定义的身份类别与大规模调查数据相结合,为研究身份语言的文化特异性、身份表达的复杂性以及精英与公众身份认知差异提供了实证基础,推动了计算社会科学与自然语言处理的跨学科融合。
实际应用
在实际应用中,该数据集被以色列研究机构用于分析政治人物在Facebook和议会演讲中的身份表达模式。通过监测选举周期中身份话语的波动,揭示右翼、左翼和民主主义者身份在竞选期间显著活跃的规律,为政治传播策略分析和公众舆论监测提供了数据支撑。
数据集最近研究
最新研究方向
在希伯来语政治文本分析领域,HebID数据集的推出标志着社会身份检测研究从英语中心向多语言范式的重大转变。该数据集通过融合专家定义与大规模调查数据,构建了涵盖12类精细化社会身份标签的多标签语料库,为探究政治话语中的身份表达机制提供了实证基础。当前研究聚焦于三大前沿方向:一是利用希伯来语优化的序列到序列大语言模型(如DictaLM2.0)提升多标签身份检测的宏F1值至0.743,显著超越传统编码器模型;二是跨体裁泛化能力的验证,模型在议会演讲文本中保持0.72的宏F1值,证实其适用于社交媒体与正式政治语境的多元分析;三是通过关联精英话语(Facebook帖文、议会演讲)与公众调查数据,揭示身份表达的时序动态、选举周期关联性及性别差异,为跨文化政治传播研究提供新范式。这些进展不仅填补了非拉丁语系政治文本分析的空白,更推动了多模态身份计算模型在全球化语境下的发展。
相关研究论文
  • 1
    HebID: Detecting Social Identities in Hebrew-language Political Text耶路撒冷希伯来大学,以色列开放大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作