five

HebArabNlpProject/HebNLI

收藏
Hugging Face2026-04-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/HebArabNlpProject/HebNLI
下载链接
链接失效反馈
官方服务:
资源简介:
HebNLI是一个用于自然语言推理(NLI)任务的希伯来语数据集。该数据集基于MultiNLI,通过机器翻译将英语语料库翻译成希伯来语。HebNLI包含7种原始MultiNLI中的来源/类型,包括九一一事件、政府文件、信件、牛津大学出版社出版物、Slate杂志文章、旅行指南和现代文学作品。数据集共包含303,383个句子,分为训练集、开发集和测试集,每个集合中包含矛盾、蕴含和中立三种逻辑关系的样本。数据集由Webiks为MAFAT翻译并检查质量,作为以色列国家自然语言处理计划的一部分。

HebNLI是一个用于自然语言推理(NLI)任务的希伯来语数据集。该数据集基于MultiNLI,通过机器翻译将英语语料库翻译成希伯来语。HebNLI包含7种原始MultiNLI中的来源/类型,包括九一一事件、政府文件、信件、牛津大学出版社出版物、Slate杂志文章、旅行指南和现代文学作品。数据集共包含303,383个句子,分为训练集、开发集和测试集,每个集合中包含矛盾、蕴含和中立三种逻辑关系的样本。数据集由Webiks为MAFAT翻译并检查质量,作为以色列国家自然语言处理计划的一部分。
提供机构:
HebArabNlpProject
原始信息汇总

数据集概述

名称: HebNLI

语言: 希伯来语

许可: CC-BY-3.0

大小: 100K<n<1M

数据集内容

目的: 用于自然语言推理(NLI)任务的训练数据。

来源: 基于MultiNLI,一个英语的大型众包语料库,通过机器翻译(Google Gemini)转换为希伯来语。

内容组成:

  • 原始来源: 包含7种原MultiNLI的10种来源中的7种:
    1. Nine eleven
    2. Government
    3. Letters
    4. OUP (Oxford University Press)
    5. Slate
    6. Travel
    7. Fiction
  • 排除来源: Verbatim杂志、面对面对话和电话对话,因不适合机器翻译而未被包含。

数据集统计

总句子数: 303,383

各来源句子分布:

Genre/Source HebNLI Corpus
Nine eleven 1878
Government 76953
Letters 1974
OUP 1986
Slate 71082
Travel 75776
Fiction 73734

各分类在不同分割中的分布:

split total contradiction entailment neutral
train 293,298 97,344 98,760 97,194
dev 5,000 1,679 1,682 1,639
test 5,000 1,682 1,638 1,680

数据集配置

配置名称: default

数据文件:

  • train: train/*.jsonl
  • dev: dev/*.jsonl
  • test: test/*.jsonl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作