jinaai/negation-dataset
收藏Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jinaai/negation-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个基于SNLI数据集的英文数据集,包含SNLI样本的否定形式。每个数据点由三个字符串组成:anchor、entailment和negative。其中,anchor和entailment是来自SNLI的正样本对,而negative是对两者的否定。数据集用于微调Jina AI的嵌入模型。
该数据集是一个基于SNLI数据集的英文数据集,包含SNLI样本的否定形式。每个数据点由三个字符串组成:anchor、entailment和negative。其中,anchor和entailment是来自SNLI的正样本对,而negative是对两者的否定。数据集用于微调Jina AI的嵌入模型。
提供机构:
jinaai
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache-2.0
数据集特征
- anchor: 字符串类型,表示某个陈述。
- entailment: 字符串类型,表示从anchor推导出的陈述,通常语法结构不同。
- negative: 字符串类型,表示与anchor和entailment相矛盾的陈述,语法结构与entailment非常相似。
数据集划分
- 训练集: 10000个样本
- 测试集: 500个样本
数据集来源
- 正样本从SNLI数据集中抽样,负样本通过GPT-3.5和GPT-4生成。
示例用法
python from datasets import load_dataset from pprint import pprint
dataset = load_dataset(jinaai/negation-dataset) pprint(dataset[train][:5])
模型应用
- Jina AI的开源嵌入模型(small, base, large)均在该否定数据集上进行了微调。
许可证信息
- 本作品根据Apache许可证,版本2.0授权。



