HebArabNlpProject/HebNLI

Name: HebArabNlpProject/HebNLI
Creator: HebArabNlpProject
Published: 2026-04-18 16:00:15
License: 暂无描述

Hugging Face2026-04-18 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/HebArabNlpProject/HebNLI

下载链接

链接失效反馈

官方服务：

资源简介：

HebNLI是一个用于自然语言推理（NLI）任务的希伯来语数据集。该数据集基于MultiNLI，通过机器翻译将英语语料库翻译成希伯来语。HebNLI包含7种原始MultiNLI中的来源/类型，包括九一一事件、政府文件、信件、牛津大学出版社出版物、Slate杂志文章、旅行指南和现代文学作品。数据集共包含303,383个句子，分为训练集、开发集和测试集，每个集合中包含矛盾、蕴含和中立三种逻辑关系的样本。数据集由Webiks为MAFAT翻译并检查质量，作为以色列国家自然语言处理计划的一部分。

提供机构：

HebArabNlpProject

原始信息汇总

数据集概述

名称： HebNLI

语言： 希伯来语

许可： CC-BY-3.0

大小： 100K<n<1M

数据集内容

目的： 用于自然语言推理（NLI）任务的训练数据。

来源： 基于MultiNLI，一个英语的大型众包语料库，通过机器翻译（Google Gemini）转换为希伯来语。

内容组成：

原始来源： 包含7种原MultiNLI的10种来源中的7种：
1. Nine eleven
2. Government
3. Letters
4. OUP (Oxford University Press)
5. Slate
6. Travel
7. Fiction
排除来源： Verbatim杂志、面对面对话和电话对话，因不适合机器翻译而未被包含。

数据集统计

总句子数： 303,383

各来源句子分布：

Genre/Source	HebNLI Corpus
Nine eleven	1878
Government	76953
Letters	1974
OUP	1986
Slate	71082
Travel	75776
Fiction	73734

各分类在不同分割中的分布：

split	total	contradiction	entailment	neutral
train	293,298	97,344	98,760	97,194
dev	5,000	1,679	1,682	1,639
test	5,000	1,682	1,638	1,680

数据集配置

配置名称： default

数据文件：

train： train/*.jsonl
dev： dev/*.jsonl
test： test/*.jsonl

5,000+

优质数据集

54 个

任务类型

进入经典数据集