community-datasets/doqa|对话式问答数据集|特定领域FAQ数据集

hugging_face2024-01-18 更新2024-06-15 收录

对话式问答

特定领域FAQ

下载链接：

https://hf-mirror.com/datasets/community-datasets/doqa

下载链接

链接失效反馈

资源简介：

DoQA是一个用于通过对话式问答访问特定领域FAQ的数据集，包含三个不同领域（烹饪、旅行和电影）的2,437个信息寻求问答对话（总共10,917个问题）。这些对话由众包工人创建，模拟用户在Stack Exchange上提问和领域专家回答的过程。数据集支持开发和评估帮助用户访问特定领域FAQ知识的对话式问答系统。

提供机构：

community-datasets

原始信息汇总

数据集卡片 for "doqa"

数据集结构

数据实例

cooking

下载的数据文件大小: 4.19 MB
生成的数据集大小: 11.31 MB
总磁盘使用量: 15.51 MB

训练集示例： json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }

movies

下载的数据文件大小: 4.19 MB
生成的数据集大小: 3.17 MB
总磁盘使用量: 7.36 MB

测试集示例： json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }

travel

下载的数据文件大小: 4.19 MB
生成的数据集大小: 3.22 MB
总磁盘使用量: 7.41 MB

数据字段

所有拆分的数据字段相同。

cooking

title: 字符串特征。
background: 字符串特征。
context: 字符串特征。
question: 字符串特征。
id: 字符串特征。
answers: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。
followup: 字符串特征。
yesno: 字符串特征。
orig_answer: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。

movies

title: 字符串特征。
background: 字符串特征。
context: 字符串特征。
question: 字符串特征。
id: 字符串特征。
answers: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。
followup: 字符串特征。
yesno: 字符串特征。
orig_answer: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。

travel

title: 字符串特征。
background: 字符串特征。
context: 字符串特征。
question: 字符串特征。
id: 字符串特征。
answers: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。
followup: 字符串特征。
yesno: 字符串特征。
orig_answer: 包含以下字段的字典特征：
- text: 字符串特征。
- answer_start: 整数特征。

数据拆分

cooking

	train	validation	test
cooking	4612	911	1797

movies

	test
movies	1884

travel

	test
travel	1713

AI搜集汇总

数据集介绍

构建方式

DoQA数据集的构建基于Stack Exchange平台上的问答对话，涵盖了烹饪、旅行和电影三个特定领域。数据集的创建过程中，众包工人扮演了两种角色：用户和领域专家。用户提出关于特定主题的问题，而领域专家则从原始帖子的长文本回复中选择短文本片段作为答案，并可能对其进行改写以使其更加自然。数据集还包含了无法回答的问题和一些相关的对话行为，旨在模拟真实的对话场景。

特点

DoQA数据集的特点在于其专注于特定领域的问答对话，涵盖了烹饪、旅行和电影三个领域。数据集包含了丰富的信息，如问题背景、上下文、问题文本、答案文本及其起始位置等。此外，数据集还提供了问题的后续对话标记和是否回答的标记，使得数据集能够支持复杂的对话系统开发。数据集的结构清晰，数据字段一致，便于研究人员进行深入分析和模型训练。

使用方法

DoQA数据集的使用方法主要包括加载数据集、进行数据预处理和模型训练。研究人员可以通过Hugging Face的datasets库轻松加载数据集，并根据需要选择特定的领域和数据集分割。数据预处理阶段，可以根据问题的背景和上下文进行特征提取，并结合答案文本和起始位置进行模型训练。数据集支持多种任务，如问答系统、对话系统和信息检索系统的开发与评估，能够帮助研究人员提升模型在特定领域的表现。

背景与挑战

背景概述

DoQA数据集由Jon Ander Campos等研究人员于2020年创建，旨在通过对话式问答（Conversational QA）访问特定领域的常见问题解答（FAQs）。该数据集涵盖了烹饪、旅行和电影三个不同领域的2437个信息寻求对话，共计10917个问题。数据集的构建基于Stack Exchange平台上的用户提问和专家回答，通过众包工人模拟用户与专家的对话，专家从原始回答中选择并重新表述文本片段，以使其更自然。DoQA为开发与评估对话式问答系统提供了重要资源，帮助用户挖掘特定领域的知识。

当前挑战

DoQA数据集在构建与应用过程中面临多重挑战。首先，对话式问答系统需要处理复杂的上下文信息，理解用户意图并生成连贯的回复，这对模型的上下文理解与生成能力提出了高要求。其次，数据集的构建依赖于众包工人的标注，如何确保标注的一致性与准确性是一个关键问题。此外，不同领域的知识差异较大，模型需要具备跨领域的学习与适应能力。最后，数据集中的未回答问题（如“CANNOTANSWER”）增加了模型处理的复杂性，要求系统能够有效识别并处理无法回答的情况。

常用场景

经典使用场景

DoQA数据集在自然语言处理领域中被广泛应用于对话式问答系统的开发与评估。其涵盖了烹饪、旅行和电影三个特定领域的问答对话，为研究者提供了一个丰富的语料库，用于训练和测试模型在复杂对话场景中的表现。通过模拟真实用户与专家之间的互动，该数据集能够有效提升模型在特定领域中的问答能力。

实际应用

在实际应用中，DoQA数据集被广泛用于构建智能客服系统和知识库问答系统。例如，在烹饪领域，该数据集可以帮助开发出能够回答用户关于食谱和烹饪技巧的智能助手；在旅行领域，它可以用于构建能够提供旅行建议和行程规划的对话系统。这些应用显著提升了用户体验，并减少了人工客服的工作负担。

衍生相关工作

基于DoQA数据集，许多经典的研究工作得以展开。例如，研究者们开发了多种基于深度学习的对话模型，如BERT和GPT的变体，用于提升问答系统的性能。此外，该数据集还催生了一系列关于多轮对话管理和上下文理解的研究，推动了对话式人工智能技术的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

PoLaRIS Dataset

PoLaRIS数据集是由仁荷大学电气与计算机工程系创建的一个用于海上目标检测和跟踪的多模态数据集，基于Pohang Canal数据集。该数据集包含约36万张图像和19万条标注，涵盖了从大到小的多尺度对象标注，特别适用于海上无人船（USV）的安全导航。数据集通过多模态传感器（如RGB、TIR、LiDAR和Radar）获取数据，并提供了详细的障碍物检测和跟踪的地面真实数据。创建过程中采用了半自动标注方法，确保了标注的准确性和效率。该数据集主要应用于复杂海上环境中的自主导航系统，旨在提高海上无人船的障碍物检测和跟踪能力，从而提升海上安全。

arXiv 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下，由王东完成的。清华大学计算机科学系智能与系统，原名“TCMSD”，意思是“清华连续普通话语音数据库”，时隔13年出版，由王东博士发起，并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此，该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录