CANARD (A Dataset for Question-in-Context Rewriting)

Name: CANARD (A Dataset for Question-in-Context Rewriting)
Creator: OpenDataLab
License: 暂无描述

OpenXLab2026-04-18 收录

下载链接：

https://openxlab.org.cn/datasets/OpenDataLab/CANARD

下载链接

链接失效反馈

官方服务：

资源简介：

CANARD 是一个用于在上下文中重写的数据集，它由每个在对话上下文中给出的问题以及与上下文无关的问题重写组成。每个问题的上下文是问题之前的对话话语。 CANARD 可用于评估处理重要语言现象（如共指和省略号解析）的问题重写模型。 CANARD 基于 QuAC（Choi 等人，2018 年）——一个会话阅读理解数据集，其中从维基百科文章的给定部分中选择答案。 QuAC 中的一些问题在其给定的部分中无法回答。我们使用“我不知道”的答案。对于这样的问题。 CANARD 是使用 Amazon Mechanical Turk 通过众包问题重写构建的。我们应用了多种自动和手动质量控制来确保数据收集过程的质量。该数据集由 40,527 个具有不同上下文长度的问题组成。我们的 EMNLP 2019 论文中提供了更多详细信息。下面提供了一个示例。该数据集在 CC BY-SA 4.0 许可下分发。

提供机构：

OpenDataLab

创建时间：

2022-09-01

5,000+

优质数据集

54 个

任务类型

进入经典数据集