uva-irlab/canard_quretec

Name: uva-irlab/canard_quretec
Creator: uva-irlab
Published: 2021-06-26 16:33:00
License: 暂无描述

Hugging Face2021-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/uva-irlab/canard_quretec

下载链接

链接失效反馈

官方服务：

资源简介：

CANARD是一个用于上下文中的问题重写的数据集，包含在对话上下文中的问题及其上下文无关的重写。每个问题的上下文是对话中在该问题之前的语句。CANARD可用于评估处理重要语言现象（如指代和省略解析）的问题重写模型。QuReTeC模型用于标记对话历史中与当前无上下文问题相关的术语，这些术语是重写问题和历史中共同出现的术语。

提供机构：

uva-irlab

原始信息汇总

数据集概述

数据集名称

Preprocessed CANARD

数据集用途

用于评估处理重要语言现象（如指代消解和省略恢复）的问句重写模型。

数据集内容

包含每个问题的对话上下文及其独立于上下文的重写问题。每个问题的上下文是该问题之前的对话发言。

数据结构

prev_questions: 字符串，例如："Where was Bennett born? Bennett was born Michael Bennett DiFiglia in Buffalo, New York. When was he born? CANNOTANSWER."
cur_question: 字符串，例如："Who are his parents?"
gold_terms: 字符串数组，例如：["michael", "bennett"]
bert_ner_overlap: 二维数组，第一项列出所有术语，第二项列出这些术语的标签。
answer_text_with_window: 字符串，对于gold_supervision子集，包含重写的问题，例如："Who are Michael Bennetts parents?"；对于distant_supervision子集，包含与问题相关的段落。

数据子集

gold_supervision: 默认子集，黄金术语是重写问题与问题历史之间的重叠术语。
distant_supervision: 黄金术语是问题历史与答案所在段落之间的重叠术语。

5,000+

优质数据集

54 个

任务类型

进入经典数据集