uva-irlab/canard_quretec
收藏Hugging Face2021-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/uva-irlab/canard_quretec
下载链接
链接失效反馈官方服务:
资源简介:
CANARD是一个用于上下文中的问题重写的数据集,包含在对话上下文中的问题及其上下文无关的重写。每个问题的上下文是对话中在该问题之前的语句。CANARD可用于评估处理重要语言现象(如指代和省略解析)的问题重写模型。QuReTeC模型用于标记对话历史中与当前无上下文问题相关的术语,这些术语是重写问题和历史中共同出现的术语。
提供机构:
uva-irlab
原始信息汇总
数据集概述
数据集名称
Preprocessed CANARD
数据集用途
用于评估处理重要语言现象(如指代消解和省略恢复)的问句重写模型。
数据集内容
包含每个问题的对话上下文及其独立于上下文的重写问题。每个问题的上下文是该问题之前的对话发言。
数据结构
- prev_questions: 字符串,例如:"Where was Bennett born? Bennett was born Michael Bennett DiFiglia in Buffalo, New York. When was he born? CANNOTANSWER."
- cur_question: 字符串,例如:"Who are his parents?"
- gold_terms: 字符串数组,例如:["michael", "bennett"]
- bert_ner_overlap: 二维数组,第一项列出所有术语,第二项列出这些术语的标签。
- answer_text_with_window: 字符串,对于gold_supervision子集,包含重写的问题,例如:"Who are Michael Bennetts parents?";对于distant_supervision子集,包含与问题相关的段落。
数据子集
- gold_supervision: 默认子集,黄金术语是重写问题与问题历史之间的重叠术语。
- distant_supervision: 黄金术语是问题历史与答案所在段落之间的重叠术语。



