five

jinaai/negation-dataset

收藏
Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jinaai/negation-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个基于SNLI数据集的英文数据集,包含SNLI样本的否定形式。每个数据点由三个字符串组成:anchor、entailment和negative。其中,anchor和entailment是来自SNLI的正样本对,而negative是对两者的否定。数据集用于微调Jina AI的嵌入模型。

该数据集是一个基于SNLI数据集的英文数据集,包含SNLI样本的否定形式。每个数据点由三个字符串组成:anchor、entailment和negative。其中,anchor和entailment是来自SNLI的正样本对,而negative是对两者的否定。数据集用于微调Jina AI的嵌入模型。
提供机构:
jinaai
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache-2.0

数据集特征

  • anchor: 字符串类型,表示某个陈述。
  • entailment: 字符串类型,表示从anchor推导出的陈述,通常语法结构不同。
  • negative: 字符串类型,表示与anchor和entailment相矛盾的陈述,语法结构与entailment非常相似。

数据集划分

  • 训练集: 10000个样本
  • 测试集: 500个样本

数据集来源

  • 正样本从SNLI数据集中抽样,负样本通过GPT-3.5和GPT-4生成。

示例用法

python from datasets import load_dataset from pprint import pprint

dataset = load_dataset(jinaai/negation-dataset) pprint(dataset[train][:5])

模型应用

  • Jina AI的开源嵌入模型(small, base, large)均在该否定数据集上进行了微调。

许可证信息

  • 本作品根据Apache许可证,版本2.0授权。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作