HeQ (Hebrew QA)

Name: HeQ (Hebrew QA)
Creator: 巴伊兰大学,以色列
Published: 2025-08-03 23:53:01
License: 暂无描述

arXiv2025-08-03 更新2025-08-06 收录

下载链接：

https://github.com/NNLP-IL/Hebrew-Question-Answering-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HeQ是一个包含30,147个问答对的数据集，数据来源于希伯来维基百科和以色列科技新闻。该数据集旨在解决希伯来语这种形态丰富的语言在问答系统中的挑战，特别是精确答案跨度识别的问题。数据集的创建过程严格，包括对标注者的筛选和培训，以及对数据质量的控制。HeQ数据集为希伯来语的自然语言理解模型提供了宝贵的资源，有助于推动该领域的研究进展。

HeQ is a dataset consisting of 30,147 question-answer pairs, derived from Hebrew Wikipedia and Israeli tech news. This dataset aims to address the challenges faced by question answering systems for morphologically rich languages such as Hebrew, particularly the task of precise answer span identification. The dataset was created through a rigorous process, including annotator screening and training, as well as data quality control. The HeQ dataset provides a valuable resource for natural language understanding models for Hebrew, and facilitates the advancement of research in this domain.

提供机构：

巴伊兰大学,以色列

创建时间：

2025-08-03

原始信息汇总

HeQ - 希伯来语问答数据集概述

数据集简介

名称：HeQ (Hebrew Question Answering Dataset)
语言：现代希伯来语
数据量：30,147个问题
数据来源：
- 希伯来语维基百科
- Geektime（以色列科技新闻平台）

数据特征

问题类型：
- 可回答问题：21,784个（答案存在于段落中）
- 不可回答问题：8,363个（段落内容相关但无明确答案）
质量标签：
- Verified：通过验证的简单问题
- Good：与段落表述差异较大的问题
- Gold：需要推理的问题
- Geektime特有标签：Deixis（时间依赖型答案）、Second（第二人称答案）、Checked（人工验证但未分类）

数据处理

质量验证：28%数据经过人工验证，16%被标记质量标签
额外答案：测试集和验证集中为可回答问题添加0-6个额外正确答案变体

数据统计

按来源和问题类型划分

	希伯来维基百科	Geektime
可回答问题	9987	9667
不可回答问题	3533	3955

按划分集统计

	希伯来维基百科	Geektime
训练集	13520	13622
验证集	751	750
测试集	754	750

唯一性统计

	希伯来维基百科	Geektime
问题数量	15025	15122
段落数量	2006	2395
文章数量	1481	2317

贡献者

标注机构：Webiks（MAFAT项目）
主要贡献者：Hilla Merhav Fine, Roei Shlezinger, Amir David Nissan Cohen
顾问：Reut Tsarfaty, Kfir Bar, Yoav Goldberg

致谢

原始ParaShoot数据集创建者：Omri Keren和Omer Levy
数据提供方：Geektime

搜集汇总

数据集介绍

构建方式

在希伯来语自然语言处理领域，现有基准主要集中于形态句法任务，而忽略了语言理解的语义维度。为填补这一空白，HeQ数据集应运而生。该数据集通过结合希伯来语维基百科和以色列科技新闻网站GeekTime的段落，构建了30,147个多样化的问答对。数据收集过程中，采用了严格的标注流程，包括招募母语为希伯来语的标注者，并通过个性化反馈机制确保标注质量。此外，还引入了新的评估指标TLNLS（Token-Level Normalized Levenshtein Similarity），以应对希伯来语形态丰富性带来的标注不一致性问题。

特点

HeQ数据集的特点在于其多样性和高质量。数据来源包括维基百科和新闻领域，确保了主题和风格的广泛覆盖。标注过程中，标注者被要求生成需要一定推理能力的“黄金”问题，从而提升了数据集的难度和质量。此外，数据集还通过严格的验证流程，确保了问答对的准确性和答案跨度的正确性。这些特点使得HeQ成为评估希伯来语机器阅读理解任务的理想基准。

使用方法

HeQ数据集的使用方法主要包括三个步骤：首先，用户可以从公开的GitHub仓库下载数据集，其中包含训练集、开发集和测试集。其次，用户可以使用提供的评估脚本和TLNLS指标来评估模型性能。最后，数据集支持多种预训练模型（如mBERT和AlephBERT）的微调，用户可以根据需要选择适合的模型进行实验。数据集的多样性和高质量使其特别适用于研究希伯来语语义理解和跨领域迁移学习。

背景与挑战

背景概述

HeQ（Hebrew QA）数据集由Bar-Ilan大学、Webiks及Allen Institute for AI的研究团队于2025年推出，旨在填补希伯来语自然语言处理（NLP）领域在语义理解任务上的空白。传统希伯来语NLP研究主要集中于形态句法任务，而HeQ作为首个专注于机器阅读理解（MRC）的大规模基准数据集，包含30,147个从希伯来语维基百科和以色列科技新闻中提取的问答对。该数据集通过创新的标注指南、众包协议及适应形态丰富语言（MRL）特性的评估指标（如TLNLS），显著提升了希伯来语语义理解的模型性能，并揭示了多语言预训练对低资源语言任务的重要性。

当前挑战

HeQ面临的挑战主要体现在两方面：领域问题层面，希伯来语的高形态复杂性（如词缀粘连、屈折变化）导致答案边界模糊，传统基于空格分词的评估指标（如F1、EM）无法准确衡量模型性能；数据构建层面，需解决标注一致性难题（如‘בבית’与‘בית’的语义等价性判定），并通过定制化众包质量控制（如分层反馈机制）和跨领域数据融合（维基百科与新闻文本）提升数据多样性。此外，现有预训练模型在形态句法任务与语义任务表现的低相关性，进一步凸显了适配MRL的评估框架开发的紧迫性。

常用场景

经典使用场景

HeQ数据集作为希伯来语机器阅读理解（MRC）的基准测试集，其经典使用场景主要集中在评估模型对希伯来语复杂形态结构的语义理解能力。通过从希伯来语维基百科和以色列科技新闻中提取的多样化问答对，该数据集为研究者提供了一个标准化的测试平台，用于验证模型在处理希伯来语特有的前缀、后缀和黏着语素等形态特征时的表现。其设计特别关注了答案跨度的边界模糊性问题，使得模型需在语义层面而非简单的词汇匹配上进行推理。

衍生相关工作

HeQ的发布直接推动了希伯来语NLP领域的多项衍生研究。其提出的TLNLS指标被后续工作扩展应用于阿拉伯语、土耳其语等形态丰富语言的MRC评估框架中。数据集本身作为ParaShoot的升级版本，催生了如mBERT在低资源语言跨语言迁移学习中的性能验证研究。此外，其揭示的多语言预训练优势（如mBERT表现优于单语模型）激发了针对希伯来语与英语联合预训练的新方法探索，相关成果发表在ACL等顶级会议中。

数据集最近研究