vietgpt/anli_r3_en
收藏Hugging Face2023-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vietgpt/anli_r3_en
下载链接
链接失效反馈官方服务:
资源简介:
The Adversarial Natural Language Inference (ANLI)数据集是一个用于自然语言推理任务的数据集,包含100,459个训练样本、1,200个验证样本和1,200个测试样本。数据集主要语言为英语,适用于文本分类任务。数据集特征包括用户ID、前提、假设、标签和理由,标签用于表示蕴涵、中立和矛盾三种逻辑关系。数据集提供了适用于NLI任务、Rationale任务和GPT-3模型的预处理格式。
数据集信息:
特征:
- 字段名:uid,数据类型:字符串
- 字段名:premise(前提),数据类型:字符串
- 字段名:hypothesis(假设),数据类型:字符串
- 字段名:label(标签),数据类型:
类别标签:
类别映射:
'0': entailment(蕴含)
'1': neutral(中立)
'2': contradiction(矛盾)
- 字段名:reason(理由),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节占用量:44720719,样本数量:100459
- 划分名称:validation(验证集),字节占用量:663148,样本数量:1200
- 划分名称:test(测试集),字节占用量:657586,样本数量:1200
下载大小:15202058,数据集总大小:46041453
任务类别:
- 文本分类
语言:
- 英语
标签:
- NLI(自然语言推理,Natural Language Inference)
样本规模区间:
- 100K < 样本数量 < 1M
# 对抗式自然语言推理(Adversarial Natural Language Inference, ANLI)数据集
- 数据源:https://huggingface.co/datasets/anli
- 样本数量:
- 训练集:100459
- 验证集:1200
- 测试集:1200
- 语言:英语
python
from datasets import load_dataset
load_dataset("vietgpt/anli_r3_en")
# 自然语言推理(NLI)任务格式
python
def preprocess(sample):
premise = sample['premise']
hypothesis = sample['hypothesis']
label = sample['label']
if label == 0:
label = "entailment(蕴含)"
elif label == 1:
label = "neutral(中立)"
else:
label = "contradiction(矛盾)"
return {'text': f'<|startoftext|><|premise|> {premise} <|hypothesis|> {hypothesis} <|label|> {label} <|endoftext|>'}
"""
<|startoftext|><|premise|> TOKYO, Dec 18 (Reuters) - 日本盐野义制药(Shionogi & Co)于12月18日周二表示,已向美国、加拿大及欧洲的卫生监管机构提交其HIV药物多替拉韦(Dolutegravir)的上市许可申请。盐野义与葛兰素史克(GlaxoSmithKline)和辉瑞(Pfizer)合资成立的ViiV Healthcare共同开发了多替拉韦,并以该药物的相关权利作为交换条件。 <|hypothesis|> 该文章撰写于12月18日。 <|label|> entailment(蕴含) <|endoftext|>
"""
# 理由提取任务格式
python
def preprocess_rationale(sample):
premise = sample['premise']
hypothesis = sample['hypothesis']
rationale = sample['reason']
return {'text': f'<|startoftext|><|premise|> {premise} <|hypothesis|> {hypothesis} <|rationale|> {rationale} <|endoftext|>'}
"""
<|startoftext|><|premise|> TOKYO, Dec 18 (Reuters) - 日本盐野义制药(Shionogi & Co)于12月18日周二表示,已向美国、加拿大及欧洲的卫生监管机构提交其HIV药物多替拉韦(Dolutegravir)的上市许可申请。盐野义与葛兰素史克(GlaxoSmithKline)和辉瑞(Pfizer)合资成立的ViiV Healthcare共同开发了多替拉韦,并以该药物的相关权利作为交换条件。 <|hypothesis|> 该文章撰写于12月18日。 <|rationale|> 文章开篇即提及"TOKYO, Dec 18 (Reuters)",由此可知本文撰写日期为12月18日 <|endoftext|>
"""
# GPT-3任务格式
python
def preprocess_gpt3(sample):
premise = sample['premise']
hypothesis = sample['hypothesis']
label = sample['label']
if label == 0:
output = f'
<|correct|> 是(True)
<|incorrect|> 否(False)
<|incorrect|> 既非(Neither)'
elif label == 1:
output = f'
<|correct|> 既非(Neither)
<|incorrect|> 是(True)
<|incorrect|> 否(False)'
else:
output = f'
<|correct|> 否(False)
<|incorrect|> 是(True)
<|incorrect|> 既非(Neither)'
return {'text': f'<|startoftext|> anli 2: {premise} <|question|> {hypothesis}
请选择“是”“否”或“既非”? <|answer|> {output} <|endoftext|>'}
"""
<|startoftext|> anli 2: TOKYO, Dec 18 (Reuters) - 日本盐野义制药(Shionogi & Co)于12月18日周二表示,已向美国、加拿大及欧洲的卫生监管机构提交其HIV药物多替拉韦(Dolutegravir)的上市许可申请。盐野义与葛兰素史克(GlaxoSmithKline)和辉瑞(Pfizer)合资成立的ViiV Healthcare共同开发了多替拉韦,并以该药物的相关权利作为交换条件。 <|question|> 该文章撰写于12月18日。
请选择“是”“否”或“既非”? <|answer|>
<|correct|> 是(True)
<|incorrect|> 否(False)
<|incorrect|> 既非(Neither) <|endoftext|>
"""
提供机构:
vietgpt
原始信息汇总
数据集概述
数据集名称
- The Adversarial Natural Language Inference (ANLI)
数据集特征
- uid: 字符串类型
- premise: 字符串类型
- hypothesis: 字符串类型
- label: 分类标签,包括 entailment, neutral, contradiction
- reason: 字符串类型
数据集划分
- 训练集: 100,459个样本,大小为44,720,719字节
- 验证集: 1,200个样本,大小为663,148字节
- 测试集: 1,200个样本,大小为657,586字节
数据集大小
- 下载大小: 15,202,058字节
- 数据集总大小: 46,041,453字节
任务类别
- 文本分类
语言
- 英语
标签
- NLI
大小类别
- 100K<n<1M



