li2017dailydialog/daily_dialog

Name: li2017dailydialog/daily_dialog
Creator: li2017dailydialog
Published: 2024-01-18 11:02:28
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/li2017dailydialog/daily_dialog

下载链接

链接失效反馈

官方服务：

资源简介：

DailyDialog是一个高质量的多轮对话数据集，反映了我们的日常交流方式，涵盖了日常生活的各种话题。数据集中的语言是人类书写的，噪音较少。我们还手动标注了数据集的交流意图和情感信息。该数据集旨在促进对话系统领域的研究。

DailyDialog is a high-quality multi-turn dialogue dataset that reflects natural daily human communication patterns, covering a diverse range of everyday topics. The language in this dataset is human-written with minimal noise. We have also manually annotated the dataset with communication intentions and emotional information. This dataset aims to promote research in the field of conversational systems.

提供机构：

li2017dailydialog

原始信息汇总

数据集概述

数据集摘要

DailyDialog 是一个高质量的多轮对话数据集，具有以下特点：

语言为人工编写，噪声较少。
对话反映了日常交流方式，涵盖了各种日常生活的主题。
数据集经过手动标注，包含交流意图和情感信息。

支持的任务和排行榜

任务类别：文本分类
任务ID：多标签分类

语言

语言：英语

数据集结构

数据实例

一个 validation 数据实例的示例如下： json { "act": [2, 1, 1, 1, 1, 2, 3, 2, 3, 4], "dialog": ["Good afternoon . This is Michelle Li speaking , calling on behalf of IBA . Is Mr Meng available at all ? ", " This is Mr Meng ...",], "emotion": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }

数据字段

所有数据分割中的数据字段相同：

dialog：一个 string 特征的 list。
act：一个分类标签的 list，可能值包括 __dummy__ (0), inform (1), question (2), directive (3) 和 commissive (4)。
emotion：一个分类标签的 list，可能值包括 no emotion (0), anger (1), disgust (2), fear (3), happiness (4), sadness (5) 和 surprise (6)。

数据分割

name	train	validation	test
default	11118	1000	1000

数据集创建

数据集来源

数据集创建者：专家生成
语言创建者：发现
源数据集：原始

数据集大小

大小类别：10K<n<100K
下载大小：4475921 字节
数据集大小：8626502 字节

许可证信息

DailyDialog 数据集的许可证为 CC BY-NC-SA 4.0。

引用信息

bibtex @InProceedings{li2017dailydialog, author = {Li, Yanran and Su, Hui and Shen, Xiaoyu and Li, Wenjie and Cao, Ziqiang and Niu, Shuzi}, title = {DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset}, booktitle = {Proceedings of The 8th International Joint Conference on Natural Language Processing (IJCNLP 2017)}, year = {2017} }

搜集汇总

数据集介绍

构建方式

DailyDialog数据集的构建基于高质量的多轮对话，这些对话由人类撰写，噪音较少。数据集涵盖了日常生活中的各种话题，并由专家手动标注了交流意图和情感信息。该数据集的构建旨在为对话系统研究领域提供一个丰富且具有代表性的资源，以评估现有方法的性能。

使用方法

DailyDialog数据集适用于多种自然语言处理任务，特别是对话系统和情感分析。用户可以通过加载数据集并访问其特征来训练和评估模型。数据集提供了训练、验证和测试三个子集，用户可以根据需要选择合适的子集进行实验。此外，数据集的标注信息可以用于多标签分类任务，帮助模型理解和生成更自然的对话。

背景与挑战

背景概述

DailyDialog数据集由Yanran Li等人于2017年创建，旨在为对话系统研究提供高质量的多轮对话数据。该数据集的语言为英语，涵盖了日常生活中的多种话题，并由专家手动标注了交流意图和情感信息。其核心研究问题在于如何通过多轮对话数据提升对话系统的自然性和情感理解能力。DailyDialog的推出对对话系统领域产生了深远影响，为研究人员提供了一个标准化的基准，促进了对话系统在情感识别和意图理解方面的进步。

当前挑战

DailyDialog数据集在构建过程中面临的主要挑战包括：1) 多轮对话的复杂性，涉及对话上下文的连续性和一致性问题；2) 情感和意图标注的准确性，需要专家进行细致的手动标注，以确保数据质量。此外，该数据集在解决对话系统领域的情感分类和对话行为分类问题时，也面临情感多样性和对话行为多样性的挑战，这些多样性可能导致模型在处理特定情感或行为时表现不佳。

常用场景

经典使用场景

DailyDialog数据集在自然语言处理领域中，经典地应用于对话系统的开发与评估。其多轮对话的结构和丰富的情感与意图标签，使得研究者能够训练和测试对话模型在日常交流中的表现。通过该数据集，研究者可以探索对话生成、情感识别和意图分类等任务，从而提升对话系统的自然性和交互质量。

解决学术问题

DailyDialog数据集解决了对话系统研究中常见的数据稀缺和标注不一致问题。通过提供高质量的多轮对话样本，该数据集帮助研究者构建更精确的对话模型，特别是在情感识别和意图分类方面。其丰富的标注信息为学术界提供了宝贵的资源，推动了对话系统领域的研究进展。

实际应用

DailyDialog数据集在实际应用中，广泛用于开发智能客服、虚拟助手和社交机器人等对话系统。通过训练模型识别用户的情感和意图，这些系统能够提供更加个性化和人性化的服务。此外，该数据集还支持情感分析工具的开发，帮助企业更好地理解客户需求和市场动态。

数据集最近研究