community-datasets/doqa

Name: community-datasets/doqa
Creator: community-datasets
Published: 2024-01-18 11:02:46
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/doqa

下载链接

链接失效反馈

官方服务：

资源简介：

DoQA是一个用于通过对话式问答访问特定领域FAQ的数据集，包含三个不同领域（烹饪、旅行和电影）的2,437个信息寻求问答对话（总共10,917个问题）。这些对话由众包工人创建，模拟用户在Stack Exchange上提问和领域专家回答的过程。数据集支持开发和评估帮助用户访问特定领域FAQ知识的对话式问答系统。

提供机构：

community-datasets

原始信息汇总

数据集卡片 for "doqa"

数据集结构

数据实例

cooking

下载的数据文件大小: 4.19 MB
生成的数据集大小: 11.31 MB
总磁盘使用量: 15.51 MB

训练集示例： json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }

movies

下载的数据文件大小: 4.19 MB
生成的数据集大小: 3.17 MB
总磁盘使用量: 7.36 MB

测试集示例： json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }

travel

下载的数据文件大小: 4.19 MB
生成的数据集大小: 3.22 MB
总磁盘使用量: 7.41 MB

数据字段

所有拆分的数据字段相同。

cooking

title: 字符串特征。
background: 字符串特征。
context: 字符串特征。
question: 字符串特征。
id: 字符串特征。
answers: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。
followup: 字符串特征。
yesno: 字符串特征。
orig_answer: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。

movies

title: 字符串特征。
background: 字符串特征。
context: 字符串特征。
question: 字符串特征。
id: 字符串特征。
answers: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。
followup: 字符串特征。
yesno: 字符串特征。
orig_answer: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。

travel

title: 字符串特征。
background: 字符串特征。
context: 字符串特征。
question: 字符串特征。
id: 字符串特征。
answers: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。
followup: 字符串特征。
yesno: 字符串特征。
orig_answer: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。

数据拆分

cooking

	train	validation	test
cooking	4612	911	1797

movies

	test
movies	1884

travel

	test
travel	1713

搜集汇总

数据集介绍

构建方式

DoQA数据集的构建基于Stack Exchange平台上的问答对话，涵盖了烹饪、旅行和电影三个特定领域。数据集的创建过程中，众包工人扮演了两种角色：用户和领域专家。用户提出关于特定主题的问题，而领域专家则从原始帖子的长文本回复中选择短文本片段作为答案，并可能对其进行改写以使其更加自然。数据集还包含了无法回答的问题和一些相关的对话行为，旨在模拟真实的对话场景。

特点

DoQA数据集的特点在于其专注于特定领域的问答对话，涵盖了烹饪、旅行和电影三个领域。数据集包含了丰富的信息，如问题背景、上下文、问题文本、答案文本及其起始位置等。此外，数据集还提供了问题的后续对话标记和是否回答的标记，使得数据集能够支持复杂的对话系统开发。数据集的结构清晰，数据字段一致，便于研究人员进行深入分析和模型训练。

使用方法

DoQA数据集的使用方法主要包括加载数据集、进行数据预处理和模型训练。研究人员可以通过Hugging Face的datasets库轻松加载数据集，并根据需要选择特定的领域和数据集分割。数据预处理阶段，可以根据问题的背景和上下文进行特征提取，并结合答案文本和起始位置进行模型训练。数据集支持多种任务，如问答系统、对话系统和信息检索系统的开发与评估，能够帮助研究人员提升模型在特定领域的表现。

背景与挑战

背景概述

DoQA数据集由Jon Ander Campos等研究人员于2020年创建，旨在通过对话式问答（Conversational QA）访问特定领域的常见问题解答（FAQs）。该数据集涵盖了烹饪、旅行和电影三个不同领域的2437个信息寻求对话，共计10917个问题。数据集的构建基于Stack Exchange平台上的用户提问和专家回答，通过众包工人模拟用户与专家的对话，专家从原始回答中选择并重新表述文本片段，以使其更自然。DoQA为开发与评估对话式问答系统提供了重要资源，帮助用户挖掘特定领域的知识。

当前挑战

DoQA数据集在构建与应用过程中面临多重挑战。首先，对话式问答系统需要处理复杂的上下文信息，理解用户意图并生成连贯的回复，这对模型的上下文理解与生成能力提出了高要求。其次，数据集的构建依赖于众包工人的标注，如何确保标注的一致性与准确性是一个关键问题。此外，不同领域的知识差异较大，模型需要具备跨领域的学习与适应能力。最后，数据集中的未回答问题（如“CANNOTANSWER”）增加了模型处理的复杂性，要求系统能够有效识别并处理无法回答的情况。

常用场景

经典使用场景

DoQA数据集在自然语言处理领域中被广泛应用于对话式问答系统的开发与评估。其涵盖了烹饪、旅行和电影三个特定领域的问答对话，为研究者提供了一个丰富的语料库，用于训练和测试模型在复杂对话场景中的表现。通过模拟真实用户与专家之间的互动，该数据集能够有效提升模型在特定领域中的问答能力。

实际应用

在实际应用中，DoQA数据集被广泛用于构建智能客服系统和知识库问答系统。例如，在烹饪领域，该数据集可以帮助开发出能够回答用户关于食谱和烹饪技巧的智能助手；在旅行领域，它可以用于构建能够提供旅行建议和行程规划的对话系统。这些应用显著提升了用户体验，并减少了人工客服的工作负担。

衍生相关工作

基于DoQA数据集，许多经典的研究工作得以展开。例如，研究者们开发了多种基于深度学习的对话模型，如BERT和GPT的变体，用于提升问答系统的性能。此外，该数据集还催生了一系列关于多轮对话管理和上下文理解的研究，推动了对话式人工智能技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集