HebArabNlpProject/HebNLI
收藏Hugging Face2026-04-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/HebArabNlpProject/HebNLI
下载链接
链接失效反馈官方服务:
资源简介:
HebNLI是一个用于自然语言推理(NLI)任务的希伯来语数据集。该数据集基于MultiNLI,通过机器翻译将英语语料库翻译成希伯来语。HebNLI包含7种原始MultiNLI中的来源/类型,包括九一一事件、政府文件、信件、牛津大学出版社出版物、Slate杂志文章、旅行指南和现代文学作品。数据集共包含303,383个句子,分为训练集、开发集和测试集,每个集合中包含矛盾、蕴含和中立三种逻辑关系的样本。数据集由Webiks为MAFAT翻译并检查质量,作为以色列国家自然语言处理计划的一部分。
HebNLI是一个用于自然语言推理(NLI)任务的希伯来语数据集。该数据集基于MultiNLI,通过机器翻译将英语语料库翻译成希伯来语。HebNLI包含7种原始MultiNLI中的来源/类型,包括九一一事件、政府文件、信件、牛津大学出版社出版物、Slate杂志文章、旅行指南和现代文学作品。数据集共包含303,383个句子,分为训练集、开发集和测试集,每个集合中包含矛盾、蕴含和中立三种逻辑关系的样本。数据集由Webiks为MAFAT翻译并检查质量,作为以色列国家自然语言处理计划的一部分。
提供机构:
HebArabNlpProject
原始信息汇总
数据集概述
名称: HebNLI
语言: 希伯来语
许可: CC-BY-3.0
大小: 100K<n<1M
数据集内容
目的: 用于自然语言推理(NLI)任务的训练数据。
来源: 基于MultiNLI,一个英语的大型众包语料库,通过机器翻译(Google Gemini)转换为希伯来语。
内容组成:
- 原始来源: 包含7种原MultiNLI的10种来源中的7种:
- Nine eleven
- Government
- Letters
- OUP (Oxford University Press)
- Slate
- Travel
- Fiction
- 排除来源: Verbatim杂志、面对面对话和电话对话,因不适合机器翻译而未被包含。
数据集统计
总句子数: 303,383
各来源句子分布:
| Genre/Source | HebNLI Corpus |
|---|---|
| Nine eleven | 1878 |
| Government | 76953 |
| Letters | 1974 |
| OUP | 1986 |
| Slate | 71082 |
| Travel | 75776 |
| Fiction | 73734 |
各分类在不同分割中的分布:
| split | total | contradiction | entailment | neutral |
|---|---|---|---|---|
| train | 293,298 | 97,344 | 98,760 | 97,194 |
| dev | 5,000 | 1,679 | 1,682 | 1,639 |
| test | 5,000 | 1,682 | 1,638 | 1,680 |
数据集配置
配置名称: default
数据文件:
- train: train/*.jsonl
- dev: dev/*.jsonl
- test: test/*.jsonl



