HebID

Name: HebID
Creator: 耶路撒冷希伯来大学，以色列开放大学
Published: 2025-08-21 20:01:56
License: 暂无描述

arXiv2025-08-21 更新2025-08-23 收录

下载链接：

https://github.com/guymorlan/hebid/

下载链接

链接失效反馈

官方服务：

资源简介：

HebID 是一个多标签希伯来语语料库，包含 5536 个句子，来自以色列政治家的 Facebook 帖子（2018 年 12 月至 2021 年 4 月），这些句子被手动标记为十二种微妙的社会身份（例如，右翼、极端正统、社会导向），这些身份基于调查数据。该数据集为研究希伯来语中的社会身份提供了全面的基础，并可以作为其他非英语政治语境类似研究的模型。

HebID is a multi-label Hebrew corpus consisting of 5,536 sentences sourced from Facebook posts of Israeli politicians spanning December 2018 to April 2021. These sentences were manually annotated with twelve nuanced social identities (e.g., right-wing, ultra-Orthodox, socially oriented) based on survey data. This dataset provides a comprehensive foundation for research on social identities in Hebrew, and can serve as a reference model for similar studies in other non-English political contexts.

提供机构：

耶路撒冷希伯来大学，以色列开放大学

创建时间：

2025-08-21

搜集汇总

数据集介绍

构建方式

在希伯来语政治文本分析领域，HebID数据集的构建采用了多阶段实证方法。基于以色列犹太人口的12轮面板调查（N=1,769），研究者通过专家咨询和问卷调查确定了12个最具显著性的社会身份类别，包括右翼、左翼、自由派等。从2018年12月至2021年4月期间以色列政治人物的64,174条Facebook帖文中，系统采样了5,536个句子，由两名希伯来语母语标注者进行多标签人工标注，平均科恩卡帕系数达0.77，确保了标注的一致性和可靠性。

使用方法

数据集的使用遵循多模态分析框架。研究者采用三类建模方法：多标签编码器模型、单标签编码器模型以及2B-9B参数的序列到序列大语言模型，其中希伯来语优化的DictaLM2.0模型取得最佳性能（宏观F1=0.743）。应用层面支持跨平台对比研究，可将训练好的分类器应用于政治人物的Facebook帖文和议会演讲分析，实现身份流行度计算、时间趋势追踪、身份捆绑模式挖掘以及性别差异量化，为比较精英话语与公众身份认知提供量化工具。

背景与挑战

背景概述

HebID数据集由耶路撒冷希伯来大学与以色列开放大学联合团队于2025年创建，旨在填补非英语政治文本中社会身份检测的研究空白。该数据集聚焦希伯来语政治话语分析，基于2018年12月至2021年4月以色列政客的5536条Facebook句子，采用专家定义与大规模调查相结合的12类社会身份标签（如右翼主义者、超正统派、社会导向者）。其创新性在于首次实现多标签希伯来语身份标注，并通过调查数据确保标签的社会显著性，为跨文化政治传播和计算社会科学提供了关键数据支撑。

当前挑战

该数据集核心挑战在于解决多标签希伯来语政治身份检测的复杂性：一是语言文化特异性导致模型需捕捉希伯来语语法结构及以色列政治语境中的身份表达模式；二是多标签标注中身份类别的共现与冲突问题（如左翼与自由主义同时出现）；构建过程中面临标注一致性挑战（平均科恩卡帕系数0.77），以及基于5%调查阈值筛选身份类别时可能忽略低频但重要的身份表达。此外，数据源局限于犹太人群体的Facebook文本，未能覆盖阿拉伯裔公民或其他社交媒体平台，限制了身份表达的全面性。

常用场景

经典使用场景

在希伯来语政治文本分析领域，HebID数据集被广泛用于多标签社会身份检测任务。研究者利用该数据集训练序列到序列语言模型，如DictaLM2.0，以识别以色列政治人物在社交媒体和议会演讲中表达的12种细粒度社会身份，包括右翼主义者、左翼主义者、自由主义者和宗教极端正统派等身份标签。

解决学术问题

该数据集解决了非英语政治文本中多标签身份检测的学术空白，突破了以往英语中心化、单标签标注的局限。通过将专家定义的身份类别与大规模调查数据相结合，为研究身份语言的文化特异性、身份表达的复杂性以及精英与公众身份认知差异提供了实证基础，推动了计算社会科学与自然语言处理的跨学科融合。

实际应用

在实际应用中，该数据集被以色列研究机构用于分析政治人物在Facebook和议会演讲中的身份表达模式。通过监测选举周期中身份话语的波动，揭示右翼、左翼和民主主义者身份在竞选期间显著活跃的规律，为政治传播策略分析和公众舆论监测提供了数据支撑。

数据集最近研究