allenai/quac|问题回答数据集|自然语言处理数据集

hugging_face2024-01-18 更新2024-05-25 收录

问题回答

自然语言处理

下载链接：

https://hf-mirror.com/datasets/allenai/quac

下载链接

链接失效反馈

资源简介：

Question Answering in Context 是一个用于建模、理解和参与信息寻求对话的数据集。数据实例由两个众包工作者之间的交互对话组成：一个是学生，提出一系列自由形式的问题以尽可能多地了解隐藏的维基百科文本；另一个是教师，通过提供文本中的简短摘录来回答问题。QuAC引入了现有机器理解数据集中未发现的挑战：其问题通常更开放、无法回答或仅在对话上下文中有意义。数据集的结构包括对话ID、维基百科页面标题、背景、部分标题、上下文、对话轮次ID、问题、后续问题、是/否问题、答案等字段。数据集分为训练集、验证集和测试集，训练集包含83,568个问题（11,567个对话），验证集和测试集分别包含7,354个和7,353个问题。

提供机构：

allenai

原始信息汇总

数据集概述

名称: Question Answering in Context (QuAC)

语言: 英语 (en)

许可证: MIT

多语言性: 单语种

大小: 10K<n<100K

来源数据集: 扩展自Wikipedia

任务类别:

问答
文本生成
填空

任务ID:

对话建模
抽取式问答

论文代码ID: quac

美观名称: Question Answering in Context

数据集结构

数据实例

数据实例包括对话ID、Wikipedia页面标题、背景信息、章节标题、上下文、对话轮次ID、问题、跟进动作、是/否回答以及答案。

数据字段

dialogue_id: 对话ID
wikipedia_page_title: Wikipedia页面标题
background: 主要Wikipedia文章的第一段
section_title: Wikipedia章节标题
context: Wikipedia章节文本
turn_ids: 对话轮次ID列表
questions: 对话中的问题列表
followups: 对话中的跟进动作列表
yesnos: 对话中的是/否回答列表
answers: 问题答案字典，包括答案开始位置和文本
orig_answers: 原始答案字典，包括答案开始位置和文本

数据分割

训练集: 包含83,568个问题（11,567个对话）
验证集: 包含7,354个问题（1,000个对话）
测试集: 包含7,353个问题（1,002个对话）

数据集创建

许可证信息

数据集遵循MIT许可证。

引用信息

@inproceedings{choi-etal-2018-quac, title = "{Q}u{AC}: Question Answering in Context", author = "Choi, Eunsol and He, He and Iyyer, Mohit and Yatskar, Mark and Yih, Wen-tau and Choi, Yejin and Liang, Percy and Zettlemoyer, Luke", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D18-1241", doi = "10.18653/v1/D18-1241", pages = "2174--2184", abstract = "We present QuAC, a dataset for Question Answering in Context that contains 14K information-seeking QA dialogs (100K questions in total). The dialogs involve two crowd workers: (1) a student who poses a sequence of freeform questions to learn as much as possible about a hidden Wikipedia text, and (2) a teacher who answers the questions by providing short excerpts from the text. QuAC introduces challenges not found in existing machine comprehension datasets: its questions are often more open-ended, unanswerable, or only meaningful within the dialog context, as we show in a detailed qualitative evaluation. We also report results for a number of reference models, including a recently state-of-the-art reading comprehension architecture extended to model dialog context. Our best model underperforms humans by 20 F1, suggesting that there is significant room for future work on this data. Dataset, baseline, and leaderboard available at url{http://quac.ai}.", }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局（NASA）发布的卫星数据集，主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据，用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface 收录