five

uva-irlab/canard_quretec

收藏
Hugging Face2021-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/uva-irlab/canard_quretec
下载链接
链接失效反馈
官方服务:
资源简介:
CANARD是一个用于上下文中的问题重写的数据集,包含在对话上下文中的问题及其上下文无关的重写。每个问题的上下文是对话中在该问题之前的语句。CANARD可用于评估处理重要语言现象(如指代和省略解析)的问题重写模型。QuReTeC模型用于标记对话历史中与当前无上下文问题相关的术语,这些术语是重写问题和历史中共同出现的术语。
提供机构:
uva-irlab
原始信息汇总

数据集概述

数据集名称

Preprocessed CANARD

数据集用途

用于评估处理重要语言现象(如指代消解和省略恢复)的问句重写模型。

数据集内容

包含每个问题的对话上下文及其独立于上下文的重写问题。每个问题的上下文是该问题之前的对话发言。

数据结构

  • prev_questions: 字符串,例如:"Where was Bennett born? Bennett was born Michael Bennett DiFiglia in Buffalo, New York. When was he born? CANNOTANSWER."
  • cur_question: 字符串,例如:"Who are his parents?"
  • gold_terms: 字符串数组,例如:["michael", "bennett"]
  • bert_ner_overlap: 二维数组,第一项列出所有术语,第二项列出这些术语的标签。
  • answer_text_with_window: 字符串,对于gold_supervision子集,包含重写的问题,例如:"Who are Michael Bennetts parents?";对于distant_supervision子集,包含与问题相关的段落。

数据子集

  • gold_supervision: 默认子集,黄金术语是重写问题与问题历史之间的重叠术语。
  • distant_supervision: 黄金术语是问题历史与答案所在段落之间的重叠术语。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作