five

JasonOrange/ERC

收藏
Hugging Face2024-03-20 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/JasonOrange/ERC
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是将MELD和EmoryNLP数据集混合并修改为可以使用ChatGLM3官方微调方法微调的格式。该数据集针对ERC(情感识别对话)任务对原始数据集进行了改写,包含三个文件:dev.json(验证集,500条)、train.json(训练集,17561条)和test.json(测试集,2889条)。

本数据集是将MELD和EmoryNLP数据集混合并修改为可以使用ChatGLM3官方微调方法微调的格式。该数据集针对ERC(情感识别对话)任务对原始数据集进行了改写,包含三个文件:dev.json(验证集,500条)、train.json(训练集,17561条)和test.json(测试集,2889条)。
提供机构:
JasonOrange
原始信息汇总

数据集概述

数据集名称

将MELD和EmoryNLP数据集混合并修改后的数据集。

数据集用途

针对ERC(情感识别)任务进行微调。

数据集结构

  • dev.json:验证集,包含500条数据。
  • train.json:训练集,包含17561条数据。
  • test.json:测试集,包含2889条数据。
搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算与对话分析领域,ERC数据集通过融合MELD与EmoryNLP两大权威资源构建而成。原始数据经过系统性的改写与重组,旨在适配ChatGLM3官方微调框架,确保格式兼容性与任务针对性。构建过程注重对话语境的完整性,将多模态情感标注转化为结构化文本序列,最终形成包含训练、验证与测试三部分的标准化语料库。
特点
该数据集以对话情感识别为核心,覆盖丰富的人际互动场景,囊括多样化的情感标签与语境层次。其突出特点在于格式的统一性与任务的明确性,每条数据均经过精细标注,支持端到端的模型微调。数据分布均衡,兼顾日常对话与戏剧化表达,为模型提供了跨场景的情感推理能力,同时保持了原始数据集的情感细腻度与语境复杂性。
使用方法
使用本数据集时,可直接加载JSON格式文件,并依据ChatGLM3微调指南进行模型训练。训练集用于参数优化,验证集辅助超调调整,测试集则评估模型泛化性能。数据已预处理为对话序列与情感标签的配对形式,用户无需额外转换即可投入训练流程,适用于基于Transformer架构的情感分类与对话理解研究。
背景与挑战
背景概述
情感识别在对话系统(ERC)作为自然语言处理的关键分支,其发展依赖于高质量标注数据的支撑。JasonOrange/ERC数据集于近期由独立研究者构建,它整合了MELD与EmoryNLP两大经典对话情感数据集,并针对ChatGLM3模型的微调需求进行了格式重构。该数据集旨在推动对话场景中细粒度情感分析的研究,通过统一多源数据,为模型训练提供了更丰富的语境与情感标签,从而助力于提升对话系统在情感理解方面的准确性与鲁棒性,对促进人机交互的自然化与情感化具有积极意义。
当前挑战
在情感识别对话领域,模型需克服多轮对话中情感状态的动态演变与上下文依赖的复杂性,同时处理不同说话者间情感交互的微妙差异。数据构建过程中,挑战主要源于多源数据集(MELD与EmoryNLP)的格式与标注标准不一致,需要进行细致的对齐与清洗;此外,为适配ChatGLM3的微调框架,需将原始数据结构转化为特定序列格式,这一过程涉及对话轮次的重组与标签映射,确保数据的一致性与可用性成为关键难点。
常用场景
经典使用场景
在对话情感识别领域,ERC数据集为研究者提供了丰富的多轮对话标注资源。该数据集整合了MELD和EmoryNLP的精华,通过结构化格式支持模型对对话中发言者的情感状态进行细粒度分类。经典应用场景包括训练神经网络模型识别对话中的喜悦、悲伤、愤怒等复杂情感,推动对话系统在情感理解层面的深度发展。
解决学术问题
该数据集有效解决了对话情感计算中的标注稀疏性与语境依赖难题。通过提供大规模多轮对话标注,它帮助学术界突破传统单句情感分析的局限,促进模型学习对话历史对当前情感的影响机制。其意义在于建立了跨对话轮次的情感演变研究基础,为理解动态社交互动中的情感传递提供了关键数据支撑。
衍生相关工作
基于该数据集衍生的经典工作包括对话情感图神经网络架构的探索,如使用图注意力网络建模发言者关系。多项研究利用其多轮特性开发了层次化情感预测模型,显著提升了长对话的情感跟踪性能。这些工作进一步推动了对话状态追踪与情感推理任务的融合,形成了情感感知对话系统的新研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作