five

li2017dailydialog/daily_dialog|对话系统数据集|情感分析数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
对话系统
情感分析
下载链接:
https://hf-mirror.com/datasets/li2017dailydialog/daily_dialog
下载链接
链接失效反馈
资源简介:
DailyDialog是一个高质量的多轮对话数据集,反映了我们的日常交流方式,涵盖了日常生活的各种话题。数据集中的语言是人类书写的,噪音较少。我们还手动标注了数据集的交流意图和情感信息。该数据集旨在促进对话系统领域的研究。
提供机构:
li2017dailydialog
原始信息汇总

数据集概述

数据集摘要

DailyDialog 是一个高质量的多轮对话数据集,具有以下特点:

  • 语言为人工编写,噪声较少。
  • 对话反映了日常交流方式,涵盖了各种日常生活的主题。
  • 数据集经过手动标注,包含交流意图和情感信息。

支持的任务和排行榜

  • 任务类别:文本分类
  • 任务ID:多标签分类

语言

  • 语言:英语

数据集结构

数据实例

一个 validation 数据实例的示例如下: json { "act": [2, 1, 1, 1, 1, 2, 3, 2, 3, 4], "dialog": ["Good afternoon . This is Michelle Li speaking , calling on behalf of IBA . Is Mr Meng available at all ? ", " This is Mr Meng ...",], "emotion": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }

数据字段

所有数据分割中的数据字段相同:

  • dialog:一个 string 特征的 list
  • act:一个分类标签的 list,可能值包括 __dummy__ (0), inform (1), question (2), directive (3) 和 commissive (4)。
  • emotion:一个分类标签的 list,可能值包括 no emotion (0), anger (1), disgust (2), fear (3), happiness (4), sadness (5) 和 surprise (6)。

数据分割

name train validation test
default 11118 1000 1000

数据集创建

数据集来源

  • 数据集创建者:专家生成
  • 语言创建者:发现
  • 源数据集:原始

数据集大小

  • 大小类别:10K<n<100K
  • 下载大小:4475921 字节
  • 数据集大小:8626502 字节

许可证信息

DailyDialog 数据集的许可证为 CC BY-NC-SA 4.0

引用信息

bibtex @InProceedings{li2017dailydialog, author = {Li, Yanran and Su, Hui and Shen, Xiaoyu and Li, Wenjie and Cao, Ziqiang and Niu, Shuzi}, title = {DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset}, booktitle = {Proceedings of The 8th International Joint Conference on Natural Language Processing (IJCNLP 2017)}, year = {2017} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
DailyDialog数据集的构建基于高质量的多轮对话,这些对话由人类撰写,噪音较少。数据集涵盖了日常生活中的各种话题,并由专家手动标注了交流意图和情感信息。该数据集的构建旨在为对话系统研究领域提供一个丰富且具有代表性的资源,以评估现有方法的性能。
使用方法
DailyDialog数据集适用于多种自然语言处理任务,特别是对话系统和情感分析。用户可以通过加载数据集并访问其特征来训练和评估模型。数据集提供了训练、验证和测试三个子集,用户可以根据需要选择合适的子集进行实验。此外,数据集的标注信息可以用于多标签分类任务,帮助模型理解和生成更自然的对话。
背景与挑战
背景概述
DailyDialog数据集由Yanran Li等人于2017年创建,旨在为对话系统研究提供高质量的多轮对话数据。该数据集的语言为英语,涵盖了日常生活中的多种话题,并由专家手动标注了交流意图和情感信息。其核心研究问题在于如何通过多轮对话数据提升对话系统的自然性和情感理解能力。DailyDialog的推出对对话系统领域产生了深远影响,为研究人员提供了一个标准化的基准,促进了对话系统在情感识别和意图理解方面的进步。
当前挑战
DailyDialog数据集在构建过程中面临的主要挑战包括:1) 多轮对话的复杂性,涉及对话上下文的连续性和一致性问题;2) 情感和意图标注的准确性,需要专家进行细致的手动标注,以确保数据质量。此外,该数据集在解决对话系统领域的情感分类和对话行为分类问题时,也面临情感多样性和对话行为多样性的挑战,这些多样性可能导致模型在处理特定情感或行为时表现不佳。
常用场景
经典使用场景
DailyDialog数据集在自然语言处理领域中,经典地应用于对话系统的开发与评估。其多轮对话的结构和丰富的情感与意图标签,使得研究者能够训练和测试对话模型在日常交流中的表现。通过该数据集,研究者可以探索对话生成、情感识别和意图分类等任务,从而提升对话系统的自然性和交互质量。
解决学术问题
DailyDialog数据集解决了对话系统研究中常见的数据稀缺和标注不一致问题。通过提供高质量的多轮对话样本,该数据集帮助研究者构建更精确的对话模型,特别是在情感识别和意图分类方面。其丰富的标注信息为学术界提供了宝贵的资源,推动了对话系统领域的研究进展。
实际应用
DailyDialog数据集在实际应用中,广泛用于开发智能客服、虚拟助手和社交机器人等对话系统。通过训练模型识别用户的情感和意图,这些系统能够提供更加个性化和人性化的服务。此外,该数据集还支持情感分析工具的开发,帮助企业更好地理解客户需求和市场动态。
数据集最近研究
最新研究方向
在自然语言处理领域,DailyDialog数据集的最新研究方向主要集中在对话系统的情感识别和对话行为分类上。随着情感计算和对话系统技术的不断进步,研究人员正致力于开发更精确的模型,以捕捉对话中的细微情感变化和复杂的对话行为。这些研究不仅有助于提升对话系统的用户体验,还为情感智能和社交机器人的发展提供了重要支持。此外,该数据集的应用也扩展到了心理健康监测和情感支持系统中,显示出其在实际应用中的广泛潜力和深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录