IBM/doc2dial

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/IBM/doc2dial

下载链接

链接失效反馈

官方服务：

资源简介：

Doc2dial是一个基于文档的目标导向对话数据集，包含了超过4500个标注对话，平均每个对话有14个回合，这些对话基于来自四个领域的450多个文档。与之前的基于文档的对话数据集相比，该数据集涵盖了信息寻求对话中的多种对话场景。数据集支持的任务包括问答任务，并且是单语言的（英语）。数据集的结构包括对话域、文档域和阅读理解域，每个域都有详细的数据字段描述。

提供机构：

IBM

原始信息汇总

数据集概述

数据集名称: doc2dial

语言: 英语

许可证: CC-BY-3.0

多语言性: 单语

大小: 1K<n<10K

源数据集: 原始

任务类别: 问答

任务ID: closed-domain-qa

数据集结构

数据实例

dialogue_domain: 包含对话ID、文档ID、领域、对话轮次等字段。
document_domain: 包含文档ID、领域、文档HTML内容、文本内容等字段。
doc2dial_rc: 包含ID、标题、上下文、问题、答案等字段。

数据字段

dialogue_domain:
- dial_id: 对话ID
- doc_id: 关联文档ID
- domain: 领域
- turns: 对话轮次列表，包含turn_id, role, da, references, utterance等字段。
document_domain:
- doc_id: 文档ID
- title: 文档标题
- domain: 领域
- doc_text: 文档文本内容
- doc_html_ts: 带HTML标记的文档内容及标注的跨度
- doc_html_raw: 带HTML标记的文档内容
- spans: 文档中的所有跨度，包含id_sp, start_sp, end_sp, text_sp, id_sec, start_sec, end_sec, text_sec, title, parent_titles等字段。
doc2dial_rc:
- id: ID
- title: 标题
- context: 上下文
- question: 问题
- answers: 答案，包含text和answer_start字段
- domain: 领域

数据分割

dialogue_domain:
- train: 3474个实例，大小为6924209字节
- validation: 661个实例，大小为1315815字节
document_domain:
- train: 3416个实例，大小为204874908字节
doc2dial_rc:
- validation: 3972个实例，大小为22705288字节
- train: 20431个实例，大小为114778994字节

数据集创建

标注创建者: 专家生成
语言创建者: 发现

数据集使用注意事项

数据集包含个人和敏感信息，使用时需谨慎。
数据集可能存在偏见和其他已知限制，使用时需考虑其社会影响。

搜集汇总

数据集介绍

构建方式

Doc2Dial数据集的构建基于专家生成的标注，涵盖了四个不同领域的文档，包括对话和文档两个主要部分。对话部分包含超过4500个标注对话，平均每个对话有14个回合，这些对话与超过450个文档相关联。文档部分则详细记录了每个文档的内容及其结构，包括HTML标记和文本信息。通过这种方式，数据集不仅提供了丰富的对话数据，还确保了对话内容与文档信息的紧密关联，为研究者提供了高质量的训练和评估资源。

使用方法

使用Doc2Dial数据集时，研究者可以利用其对话和文档两个部分进行模型训练和评估。对话部分可用于训练对话生成模型，而文档部分则可用于训练信息检索模型。通过结合这两个部分，可以构建出能够根据文档内容生成自然对话的系统。此外，数据集的细粒度标注和多领域覆盖也为跨领域的对话系统研究提供了丰富的资源。研究者可以根据具体任务需求，选择合适的子集进行实验和模型优化。

背景与挑战

背景概述

Doc2dial数据集由IBM公司主导创建，专注于文档驱动的对话系统研究。该数据集包含超过4500个经过专家标注的对话，平均每个对话有14个回合，这些对话基于来自四个不同领域的450多份文档。Doc2dial的创建旨在解决文档驱动的对话系统中的核心问题，即如何在信息寻求对话中实现对话与文档内容的高效关联。这一研究不仅推动了对话系统领域的发展，也为智能客服和信息检索系统提供了宝贵的资源。

当前挑战

Doc2dial数据集在构建过程中面临多项挑战。首先，如何确保对话与文档内容的高度关联性是一个主要难题，这需要精细的标注和验证过程。其次，跨领域的对话数据收集和标注工作复杂，涉及多个专业领域的知识。此外，数据集的规模和多样性要求高效的算法和模型来处理和分析这些数据，以实现对话系统的准确性和鲁棒性。最后，如何在保护用户隐私的前提下，有效利用和共享这些敏感数据也是一个重要的挑战。

常用场景

经典使用场景

Doc2dial数据集的经典使用场景主要集中在面向文档的对话系统中，特别是在封闭领域的问答任务中。该数据集通过提供对话与文档之间的明确关联，使得模型能够更好地理解和回答用户的问题。例如，在客户服务领域，用户可以通过对话系统查询与特定文档相关的信息，而系统则能够根据文档内容提供准确的回答。

解决学术问题

Doc2dial数据集解决了在文档基础上的对话系统中常见的学术研究问题，如对话与文档的关联性、对话系统的准确性和效率等。通过提供详细的对话和文档标注，该数据集为研究人员提供了一个标准化的测试平台，促进了对话系统在信息检索和问答任务中的性能提升。

实际应用

在实际应用中，Doc2dial数据集被广泛用于构建和优化客户服务对话系统。例如，在政府部门或企业中，用户可以通过对话系统查询与政策、产品说明等文档相关的信息，从而提高服务效率和用户满意度。此外，该数据集还可用于培训智能助手和聊天机器人，使其能够更准确地理解和回答用户的问题。

数据集最近研究