five

EmotionBench|情感分析数据集|情绪识别数据集

收藏
github2023-08-01 更新2025-02-07 收录
情感分析
情绪识别
下载链接:
https://github.com/CUHK-ARISE/EmotionBench
下载链接
链接失效反馈
资源简介:
情感基准(EmotionBench)数据集提出了一个开创性的基准测试,用于评估大语言模型(LLMs)的共情能力,研究大语言模型在特定情境下如何产生情绪变化。该数据集包含400多个情境,生成了八种不同的情绪类别,分别是愤怒、焦虑、抑郁、挫败、嫉妒、内疚、恐惧和尴尬。

The EmotionBench dataset introduces a pioneering benchmark test for evaluating the empathy capabilities of Large Language Models (LLMs), investigating how LLMs elicit emotional changes in specific contexts. The dataset encompasses over 400 scenarios, generating eight distinct emotional categories, including anger, anxiety, depression, frustration, envy, guilt, fear, and embarrassment.
提供机构:
香港中文大学
创建时间:
2023-08-01
原始信息汇总

EmotionBench 数据集概述

基本信息

  • 情感数量:8种
  • 因素数量:36个
  • 情境数量:428个
  • 人类参考数量:1266个

用途

  • 研究用途:仅限研究使用,禁止商业用途
  • 主要目标:评估大型语言模型(LLM)的共情能力

使用方法

示例运行

python python run_emotionbench.py --model gpt-3.5-turbo --questionnaire PANAS --emotion ALL --select-count 5 --default-shuffle-count 2 --emotion-shuffle-count 1 --test-count 1

参数说明

  1. 必选参数

    • --model:测试的模型名称
    • --questionnaire:选择运行的问卷
    • --emotion:选择运行的情感
    • --select-count:每个因素选择的情境数量
    • --default-shuffle-count:默认情感测量中的不同顺序数量
    • --emotion-shuffle-count:诱发情感测量中的不同顺序数量
    • --test-count:相同顺序的运行次数
  2. 可选参数

    • --name-exp:运行的名称
    • --significance-level:测试人类与LLM均值差异的显著性水平
    • --mode:调试模式

支持的情感

  • Anger(愤怒)
  • Anxiety(焦虑)
  • Depression(抑郁)
  • Frustration(挫折)
  • Jealousy(嫉妒)
  • Guilt(内疚)
  • Fear(恐惧)
  • Embarrassment(尴尬)

问卷列表

  1. PANAS:积极与消极情感量表
  2. AGQ:攻击性问卷
  3. DASS-21:短式抑郁焦虑压力量表
  4. BDI:贝克抑郁量表
  5. FDS:挫折不适量表
  6. MJS:多维嫉妒量表
  7. GASP:内疚与羞耻倾向量表
  8. FSS:恐惧调查表
  9. BFNE:简要负面评价恐惧量表

自定义模型

  • 替换example_generator函数
  • 读取args.testing_file中的问题
  • 调用自定义LLM并填充结果

论文与引用

  • 论文链接:https://arxiv.org/abs/2308.03656
  • 引用格式: bibtex @inproceedings{huang2024apathetic, author = {Jen{-}tse Huang and Man Ho Lam and Eric John Li and Shujie Ren and Wenxuan Wang and Wenxiang Jiao and Zhaopeng Tu and Michael R. Lyu}, title = {Apathetic or Empathetic? Evaluating {LLM}s Emotional Alignments with Humans}, booktitle = {Advances in Neural Information Processing Systems 37}, year = {2024} }
AI搜集汇总
数据集介绍
main_image_url
构建方式
EmotionBench数据集的构建基于对人类情感反应的深入分析,涵盖了8种主要情绪和36个情感因素。通过收集1266条人类参考数据,数据集详细记录了428种情境下的情感反应。数据集的构建过程包括设计情境问卷、收集人类情感反应数据,并通过统计分析确保数据的代表性和可靠性。这一过程不仅考虑了情感的多样性,还通过多轮测试和验证确保了数据的高质量。
使用方法
EmotionBench数据集的使用方法灵活多样,研究者可以通过命令行工具运行情感分析任务。使用`run_emotionbench.py`脚本,用户可以指定模型、问卷类型、情感类型等参数,进行情感反应的测试和分析。数据集支持多种问卷类型,如PANAS、AGQ等,用户可以根据研究需求选择合适的情感测量工具。此外,数据集还提供了自定义情境和情感因素的接口,研究者可以根据需要扩展数据集的内容。
背景与挑战
背景概述
EmotionBench数据集由香港中文大学的研究团队于2023年创建,旨在评估大型语言模型(LLMs)在情感理解与共情能力方面的表现。该数据集涵盖了8种基本情感和36个情感因素,包含428种情境和1266条人类参考数据,通过多种心理学问卷(如PANAS、AGQ等)进行情感测量。EmotionBench的推出填补了LLMs在情感计算领域的空白,为研究LLMs与人类情感对齐提供了重要的基准工具,推动了情感智能的发展。
当前挑战
EmotionBench面临的挑战主要体现在两个方面。首先,情感计算本身具有高度主观性和复杂性,如何准确捕捉和量化情感状态是一个长期存在的难题。其次,数据集的构建过程中,研究者需要确保情境的多样性和情感的真实性,同时还要处理人类参考数据的主观偏差。此外,如何设计有效的评估指标来衡量LLMs的情感共情能力,也是该领域亟待解决的关键问题。
常用场景
经典使用场景
EmotionBench数据集在情感计算领域具有广泛的应用,特别是在评估大型语言模型(LLMs)的情感共情能力方面。通过提供多种情感情境和问卷,该数据集能够帮助研究者系统地测试模型在不同情感状态下的表现。例如,研究者可以使用PANAS问卷来评估模型在积极和消极情感上的表现,或通过DASS-21问卷来分析模型在焦虑和抑郁情境下的反应。这种系统化的评估方法为情感计算领域的研究提供了坚实的基础。
解决学术问题
EmotionBench数据集解决了情感计算领域中的关键问题,即如何量化评估大型语言模型的情感共情能力。传统的情感计算研究往往依赖于单一的情感维度或情境,缺乏系统性和全面性。EmotionBench通过引入多种情感情境和问卷,提供了多维度的评估框架,使得研究者能够更全面地分析模型在不同情感状态下的表现。这不仅推动了情感计算领域的研究进展,还为模型的情感共情能力提供了科学的评估标准。
实际应用
在实际应用中,EmotionBench数据集为开发具有情感共情能力的智能系统提供了重要支持。例如,在心理健康领域,该数据集可以用于开发能够识别和响应用户情感状态的聊天机器人,从而为用户提供情感支持。此外,在教育和客户服务领域,EmotionBench也可以用于训练能够理解和回应用户情感需求的智能助手,提升用户体验。这些应用场景展示了EmotionBench在推动情感智能技术发展中的实际价值。
数据集最近研究
最新研究方向
在情感计算领域,EmotionBench数据集的最新研究方向聚焦于评估大型语言模型(LLMs)在情感对齐方面的表现。通过引入多种情感维度和情境因素,该数据集为研究者提供了一个全面的基准测试平台,旨在衡量模型在理解、生成和响应人类情感方面的能力。当前研究热点包括模型在复杂情感情境下的表现优化、情感生成的自然度提升,以及模型在不同文化背景下的情感适应性。这些研究不仅推动了情感计算技术的发展,也为构建更具同理心的人工智能系统提供了理论支持和实践指导。EmotionBench的应用前景广阔,涵盖了心理健康辅助、情感交互机器人等多个领域,具有重要的学术价值和社会意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Billboard-Hot-100

该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录