QuAC
收藏魔搭社区2026-01-01 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/QuAC
下载链接
链接失效反馈官方服务:
资源简介:
displayName: QuAC (Question Answering in Context)
labelTypes:
- Text
license:
- CC BY-SA 4.0
mediaTypes:
- Text
paperUrl: https://aclanthology.org/D18-1241.pdf
publishDate: "2018"
publishUrl: https://quac.ai/
publisher:
- Stanford University
- University of Washington
- Allen Institute for Artificial Intelligence
- University of Massachusetts Amherst
tags:
- Question And Answer
taskTypes:
- Visual Question Answering
- Multi-Turn Question Answering
---
# 数据集介绍
## 简介
上下文问答是一个大规模的数据集,由大约 14K 众包问答对话和总共 98K 问答对组成。数据实例包括两个群众工作者之间的交互式对话:(1)提出一系列自由形式问题以尽可能多地了解隐藏的维基百科文本的学生,以及(2)通过提供简短摘录来回答问题的老师(跨越)来自文本。
## 引文
```
@article{choi2018quac,
title={QuAC: Question answering in context},
author={Choi, Eunsol and He, He and Iyyer, Mohit and Yatskar, Mark and Yih, Wen-tau and Choi, Yejin and Liang, Percy and Zettlemoyer, Luke},
journal={arXiv preprint arXiv:1808.07036},
year={2018}
}
```
## Download dataset
:modelscope-code[]{type="git"}
displayName: QuAC(上下文问答,Question Answering in Context)
labelTypes:
- 文本(Text)
license:
- CC BY-SA 4.0
mediaTypes:
- 文本(Text)
paperUrl: https://aclanthology.org/D18-1241.pdf
publishDate: "2018"
publishUrl: https://quac.ai/
publisher:
- 斯坦福大学(Stanford University)
- 华盛顿大学(University of Washington)
- 艾伦人工智能研究所(Allen Institute for Artificial Intelligence)
- 马萨诸塞大学阿默斯特分校(University of Massachusetts Amherst)
tags:
- 问答(Question And Answer)
taskTypes:
- 视觉问答(Visual Question Answering)
- 多轮问答(Multi-Turn Question Answering)
---
# 数据集介绍
## 简介
QuAC(上下文问答)是一款大规模数据集,包含约1.4万条众包问答对话与总计9.8万组问答对。数据实例对应两名众包工作者之间的交互式对话:其一为学生,通过提出一系列自由格式问题,尽可能多地了解隐藏的维基百科文本;其二为教师,通过提供取自文本的简短摘录来回应提问。
## 引文
@article{choi2018quac,
title={QuAC: Question answering in context},
author={Choi, Eunsol and He, He and Iyyer, Mohit and Yatskar, Mark and Yih, Wen-tau and Choi, Yejin and Liang, Percy and Zettlemoyer, Luke},
journal={arXiv preprint arXiv:1808.07036},
year={2018}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-02
搜集汇总
数据集介绍

构建方式
QuAC数据集的构建基于大规模的对话式问答场景,通过收集和整理来自多个领域的对话记录,涵盖了从日常对话到专业知识的广泛内容。数据集的构建过程中,采用了自然语言处理技术对对话进行结构化处理,提取出问题和对应的答案,并标注了对话的上下文信息,以确保数据的完整性和一致性。此外,数据集还包含了对话者的角色信息和对话的情感标签,以丰富数据的多维度特征。
特点
QuAC数据集的显著特点在于其对话式问答的复杂性和多样性。数据集不仅包含了直接的问答对,还涵盖了对话的上下文信息,使得模型能够更好地理解对话的语境和逻辑关系。此外,数据集中的问题类型多样,从事实性问题到推理性问题均有涉及,这为模型的训练提供了丰富的挑战。数据集的情感标签和角色信息也为情感分析和角色识别提供了宝贵的资源。
使用方法
QuAC数据集主要用于训练和评估对话式问答系统,特别是那些需要理解复杂对话上下文的模型。使用该数据集时,研究人员可以采用多种机器学习算法,如序列到序列模型、注意力机制和预训练语言模型,来构建和优化问答系统。此外,数据集的情感标签和角色信息可以用于情感分析和角色识别任务,为多任务学习提供了可能。在使用过程中,建议结合具体的应用场景,选择合适的模型和训练策略,以最大化数据集的价值。
背景与挑战
背景概述
QuAC(Question Answering in Context)数据集由纽约大学和Facebook AI Research于2018年联合发布,旨在推动对话式问答系统的研究。该数据集基于维基百科文章,包含14,000多个对话,涵盖了超过100,000个问答对。QuAC的独特之处在于其模拟了真实世界中的问答场景,其中问题和答案不仅依赖于文本内容,还依赖于对话历史和上下文信息。这一数据集的发布极大地促进了自然语言处理领域中对话式问答系统的研究,为研究人员提供了一个标准化的评估平台,从而推动了相关技术的进步。
当前挑战
QuAC数据集在构建过程中面临了多重挑战。首先,如何有效地从维基百科文章中提取出具有上下文依赖性的问答对,确保其真实性和多样性,是一个复杂的问题。其次,对话式问答系统需要处理长文本和复杂的上下文关系,这对模型的理解和推理能力提出了高要求。此外,数据集中包含的隐含信息和对话历史的不确定性,增加了模型训练的难度。最后,如何设计有效的评估指标,以准确衡量对话式问答系统的性能,也是该数据集面临的一大挑战。
发展历史
创建时间与更新
QuAC数据集由Princeton University和New York University的研究团队于2018年创建,旨在模拟真实世界中的对话式问答场景。该数据集自创建以来,未有公开的更新记录。
重要里程碑
QuAC的发布标志着对话式问答领域的一个重要里程碑,它引入了上下文依赖性和对话历史的复杂性,使得研究者能够开发更智能的对话系统。该数据集包含了超过14,000个对话,涵盖了多种主题和复杂度,为研究者提供了一个丰富的资源库。此外,QuAC还引入了角色扮演的概念,使得问答系统需要理解并适应不同角色的提问风格和信息需求。
当前发展情况
目前,QuAC数据集已成为对话式问答研究的核心资源之一,广泛应用于自然语言处理和人工智能领域的多个研究项目中。其独特的对话历史和上下文依赖性设计,推动了对话系统在理解和生成复杂对话方面的技术进步。许多研究团队利用QuAC进行模型训练和评估,以提升对话系统的性能和用户体验。此外,QuAC的成功也激发了更多关于对话式问答数据集的创建和研究,进一步丰富了该领域的研究资源和方法。
发展历程
- QuAC数据集首次发表于2018年,由Eunsol Choi等人提出,旨在模拟对话式问答场景,特别是在信息检索和自然语言处理领域。
- QuAC数据集在2019年首次应用于多个研究项目,包括对话系统、问答系统和信息检索模型的评估与改进。
- 2020年,QuAC数据集被广泛用于学术研究和工业应用,成为对话式问答领域的重要基准数据集之一。
- 随着技术的进步,2021年QuAC数据集的扩展版本发布,增加了更多的对话样本和复杂问答场景,进一步推动了相关研究的发展。
常用场景
经典使用场景
在自然语言处理领域,QuAC(Question Answering in Context)数据集以其独特的对话式问答场景而著称。该数据集通过模拟真实世界中的对话环境,要求模型在给定的对话历史和上下文中生成准确的答案。这一特性使得QuAC成为评估和提升问答系统在复杂对话环境中表现的重要工具。研究者们利用QuAC数据集来训练和测试模型在多轮对话中的理解能力和响应准确性,从而推动了对话系统的发展。
解决学术问题
QuAC数据集在学术研究中解决了多轮对话问答系统的关键问题。传统的问答数据集通常侧重于单轮问答,而QuAC通过引入对话历史和上下文信息,使得模型需要理解并整合多轮对话中的信息。这不仅提升了模型的上下文感知能力,还为研究者提供了一个评估和改进对话系统在真实对话场景中表现的平台。QuAC的出现,推动了对话系统在复杂对话环境中的研究进展,具有重要的学术意义。
衍生相关工作
QuAC数据集的发布激发了大量相关研究工作。例如,研究者们基于QuAC开发了多种改进的问答模型,这些模型在处理多轮对话时表现更为出色。此外,QuAC还促进了对话系统在多领域应用的研究,如医疗对话系统和法律咨询系统。这些衍生工作不仅扩展了QuAC的应用范围,还为自然语言处理领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



