five

vietgpt/anli_r3_en

收藏
Hugging Face2023-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vietgpt/anli_r3_en
下载链接
链接失效反馈
官方服务:
资源简介:
The Adversarial Natural Language Inference (ANLI)数据集是一个用于自然语言推理任务的数据集,包含100,459个训练样本、1,200个验证样本和1,200个测试样本。数据集主要语言为英语,适用于文本分类任务。数据集特征包括用户ID、前提、假设、标签和理由,标签用于表示蕴涵、中立和矛盾三种逻辑关系。数据集提供了适用于NLI任务、Rationale任务和GPT-3模型的预处理格式。

数据集信息: 特征: - 字段名:uid,数据类型:字符串 - 字段名:premise(前提),数据类型:字符串 - 字段名:hypothesis(假设),数据类型:字符串 - 字段名:label(标签),数据类型: 类别标签: 类别映射: '0': entailment(蕴含) '1': neutral(中立) '2': contradiction(矛盾) - 字段名:reason(理由),数据类型:字符串 数据集划分: - 划分名称:train(训练集),字节占用量:44720719,样本数量:100459 - 划分名称:validation(验证集),字节占用量:663148,样本数量:1200 - 划分名称:test(测试集),字节占用量:657586,样本数量:1200 下载大小:15202058,数据集总大小:46041453 任务类别: - 文本分类 语言: - 英语 标签: - NLI(自然语言推理,Natural Language Inference) 样本规模区间: - 100K < 样本数量 < 1M # 对抗式自然语言推理(Adversarial Natural Language Inference, ANLI)数据集 - 数据源:https://huggingface.co/datasets/anli - 样本数量: - 训练集:100459 - 验证集:1200 - 测试集:1200 - 语言:英语 python from datasets import load_dataset load_dataset("vietgpt/anli_r3_en") # 自然语言推理(NLI)任务格式 python def preprocess(sample): premise = sample['premise'] hypothesis = sample['hypothesis'] label = sample['label'] if label == 0: label = "entailment(蕴含)" elif label == 1: label = "neutral(中立)" else: label = "contradiction(矛盾)" return {'text': f'<|startoftext|><|premise|> {premise} <|hypothesis|> {hypothesis} <|label|> {label} <|endoftext|>'} """ <|startoftext|><|premise|> TOKYO, Dec 18 (Reuters) - 日本盐野义制药(Shionogi & Co)于12月18日周二表示,已向美国、加拿大及欧洲的卫生监管机构提交其HIV药物多替拉韦(Dolutegravir)的上市许可申请。盐野义与葛兰素史克(GlaxoSmithKline)和辉瑞(Pfizer)合资成立的ViiV Healthcare共同开发了多替拉韦,并以该药物的相关权利作为交换条件。 <|hypothesis|> 该文章撰写于12月18日。 <|label|> entailment(蕴含) <|endoftext|> """ # 理由提取任务格式 python def preprocess_rationale(sample): premise = sample['premise'] hypothesis = sample['hypothesis'] rationale = sample['reason'] return {'text': f'<|startoftext|><|premise|> {premise} <|hypothesis|> {hypothesis} <|rationale|> {rationale} <|endoftext|>'} """ <|startoftext|><|premise|> TOKYO, Dec 18 (Reuters) - 日本盐野义制药(Shionogi & Co)于12月18日周二表示,已向美国、加拿大及欧洲的卫生监管机构提交其HIV药物多替拉韦(Dolutegravir)的上市许可申请。盐野义与葛兰素史克(GlaxoSmithKline)和辉瑞(Pfizer)合资成立的ViiV Healthcare共同开发了多替拉韦,并以该药物的相关权利作为交换条件。 <|hypothesis|> 该文章撰写于12月18日。 <|rationale|> 文章开篇即提及"TOKYO, Dec 18 (Reuters)",由此可知本文撰写日期为12月18日 <|endoftext|> """ # GPT-3任务格式 python def preprocess_gpt3(sample): premise = sample['premise'] hypothesis = sample['hypothesis'] label = sample['label'] if label == 0: output = f' <|correct|> 是(True) <|incorrect|> 否(False) <|incorrect|> 既非(Neither)' elif label == 1: output = f' <|correct|> 既非(Neither) <|incorrect|> 是(True) <|incorrect|> 否(False)' else: output = f' <|correct|> 否(False) <|incorrect|> 是(True) <|incorrect|> 既非(Neither)' return {'text': f'<|startoftext|> anli 2: {premise} <|question|> {hypothesis} 请选择“是”“否”或“既非”? <|answer|> {output} <|endoftext|>'} """ <|startoftext|> anli 2: TOKYO, Dec 18 (Reuters) - 日本盐野义制药(Shionogi & Co)于12月18日周二表示,已向美国、加拿大及欧洲的卫生监管机构提交其HIV药物多替拉韦(Dolutegravir)的上市许可申请。盐野义与葛兰素史克(GlaxoSmithKline)和辉瑞(Pfizer)合资成立的ViiV Healthcare共同开发了多替拉韦,并以该药物的相关权利作为交换条件。 <|question|> 该文章撰写于12月18日。 请选择“是”“否”或“既非”? <|answer|> <|correct|> 是(True) <|incorrect|> 否(False) <|incorrect|> 既非(Neither) <|endoftext|> """
提供机构:
vietgpt
原始信息汇总

数据集概述

数据集名称

  • The Adversarial Natural Language Inference (ANLI)

数据集特征

  • uid: 字符串类型
  • premise: 字符串类型
  • hypothesis: 字符串类型
  • label: 分类标签,包括 entailment, neutral, contradiction
  • reason: 字符串类型

数据集划分

  • 训练集: 100,459个样本,大小为44,720,719字节
  • 验证集: 1,200个样本,大小为663,148字节
  • 测试集: 1,200个样本,大小为657,586字节

数据集大小

  • 下载大小: 15,202,058字节
  • 数据集总大小: 46,041,453字节

任务类别

  • 文本分类

语言

  • 英语

标签

  • NLI

大小类别

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作