five

li2017dailydialog/daily_dialog|对话系统数据集|情感分析数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
对话系统
情感分析
下载链接:
https://hf-mirror.com/datasets/li2017dailydialog/daily_dialog
下载链接
链接失效反馈
资源简介:
DailyDialog是一个高质量的多轮对话数据集,反映了我们的日常交流方式,涵盖了日常生活的各种话题。数据集中的语言是人类书写的,噪音较少。我们还手动标注了数据集的交流意图和情感信息。该数据集旨在促进对话系统领域的研究。
提供机构:
li2017dailydialog
原始信息汇总

数据集概述

数据集摘要

DailyDialog 是一个高质量的多轮对话数据集,具有以下特点:

  • 语言为人工编写,噪声较少。
  • 对话反映了日常交流方式,涵盖了各种日常生活的主题。
  • 数据集经过手动标注,包含交流意图和情感信息。

支持的任务和排行榜

  • 任务类别:文本分类
  • 任务ID:多标签分类

语言

  • 语言:英语

数据集结构

数据实例

一个 validation 数据实例的示例如下: json { "act": [2, 1, 1, 1, 1, 2, 3, 2, 3, 4], "dialog": ["Good afternoon . This is Michelle Li speaking , calling on behalf of IBA . Is Mr Meng available at all ? ", " This is Mr Meng ...",], "emotion": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }

数据字段

所有数据分割中的数据字段相同:

  • dialog:一个 string 特征的 list
  • act:一个分类标签的 list,可能值包括 __dummy__ (0), inform (1), question (2), directive (3) 和 commissive (4)。
  • emotion:一个分类标签的 list,可能值包括 no emotion (0), anger (1), disgust (2), fear (3), happiness (4), sadness (5) 和 surprise (6)。

数据分割

name train validation test
default 11118 1000 1000

数据集创建

数据集来源

  • 数据集创建者:专家生成
  • 语言创建者:发现
  • 源数据集:原始

数据集大小

  • 大小类别:10K<n<100K
  • 下载大小:4475921 字节
  • 数据集大小:8626502 字节

许可证信息

DailyDialog 数据集的许可证为 CC BY-NC-SA 4.0

引用信息

bibtex @InProceedings{li2017dailydialog, author = {Li, Yanran and Su, Hui and Shen, Xiaoyu and Li, Wenjie and Cao, Ziqiang and Niu, Shuzi}, title = {DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset}, booktitle = {Proceedings of The 8th International Joint Conference on Natural Language Processing (IJCNLP 2017)}, year = {2017} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
DailyDialog数据集的构建基于高质量的多轮对话,这些对话由人类撰写,噪音较少。数据集涵盖了日常生活中的各种话题,并由专家手动标注了交流意图和情感信息。该数据集的构建旨在为对话系统研究领域提供一个丰富且具有代表性的资源,以评估现有方法的性能。
使用方法
DailyDialog数据集适用于多种自然语言处理任务,特别是对话系统和情感分析。用户可以通过加载数据集并访问其特征来训练和评估模型。数据集提供了训练、验证和测试三个子集,用户可以根据需要选择合适的子集进行实验。此外,数据集的标注信息可以用于多标签分类任务,帮助模型理解和生成更自然的对话。
背景与挑战
背景概述
DailyDialog数据集由Yanran Li等人于2017年创建,旨在为对话系统研究提供高质量的多轮对话数据。该数据集的语言为英语,涵盖了日常生活中的多种话题,并由专家手动标注了交流意图和情感信息。其核心研究问题在于如何通过多轮对话数据提升对话系统的自然性和情感理解能力。DailyDialog的推出对对话系统领域产生了深远影响,为研究人员提供了一个标准化的基准,促进了对话系统在情感识别和意图理解方面的进步。
当前挑战
DailyDialog数据集在构建过程中面临的主要挑战包括:1) 多轮对话的复杂性,涉及对话上下文的连续性和一致性问题;2) 情感和意图标注的准确性,需要专家进行细致的手动标注,以确保数据质量。此外,该数据集在解决对话系统领域的情感分类和对话行为分类问题时,也面临情感多样性和对话行为多样性的挑战,这些多样性可能导致模型在处理特定情感或行为时表现不佳。
常用场景
经典使用场景
DailyDialog数据集在自然语言处理领域中,经典地应用于对话系统的开发与评估。其多轮对话的结构和丰富的情感与意图标签,使得研究者能够训练和测试对话模型在日常交流中的表现。通过该数据集,研究者可以探索对话生成、情感识别和意图分类等任务,从而提升对话系统的自然性和交互质量。
解决学术问题
DailyDialog数据集解决了对话系统研究中常见的数据稀缺和标注不一致问题。通过提供高质量的多轮对话样本,该数据集帮助研究者构建更精确的对话模型,特别是在情感识别和意图分类方面。其丰富的标注信息为学术界提供了宝贵的资源,推动了对话系统领域的研究进展。
实际应用
DailyDialog数据集在实际应用中,广泛用于开发智能客服、虚拟助手和社交机器人等对话系统。通过训练模型识别用户的情感和意图,这些系统能够提供更加个性化和人性化的服务。此外,该数据集还支持情感分析工具的开发,帮助企业更好地理解客户需求和市场动态。
数据集最近研究
最新研究方向
在自然语言处理领域,DailyDialog数据集的最新研究方向主要集中在对话系统的情感识别和对话行为分类上。随着情感计算和对话系统技术的不断进步,研究人员正致力于开发更精确的模型,以捕捉对话中的细微情感变化和复杂的对话行为。这些研究不仅有助于提升对话系统的用户体验,还为情感智能和社交机器人的发展提供了重要支持。此外,该数据集的应用也扩展到了心理健康监测和情感支持系统中,显示出其在实际应用中的广泛潜力和深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

集装箱数据集

集装箱数据集,包含3500张1080p集装箱图像以及其编码区的xml标注

AI_Studio 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录