pbevan11/EQ-Bench

Name: pbevan11/EQ-Bench
Creator: pbevan11
Published: 2024-03-05 17:58:37
License: 暂无描述

Hugging Face2024-03-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pbevan11/EQ-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit language: - en pretty_name: EQ-Bench size_categories: - n<1K --- # EQ-Bench This is the EQ-Bench v2 English dataset, all credit to Samuel J. Paech. --- Title: `EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models` Abstract: https://arxiv.org/abs/2312.06281 EQ-Bench is a benchmark for language models designed to assess emotional intelligence. Why emotional intelligence? One reason is that it represents a subset of abilities that are important for the user experience, and which isn't explicitly tested by other benchmarks. Another reason is that it's not trivial to improve scores by fine tuning for the benchmark, which makes it harder to "game" the leaderboard. EQ-Bench is a little different from traditional psychometric tests. It uses a specific question format, in which the subject has to read a dialogue then rate the intensity of possible emotional responses of one of the characters. Every question is interpretative and assesses the ability to predict the magnitude of the 4 presented emotions. The test is graded without the need for a judge (so there is no length bias). It's cheap to run (only 171 questions), and produces results that correlate strongly with human preference (Arena ELO) and multi-domain benchmarks like MMLU. Homepage: https://eqbench.com/ ### Citation ```bibtex @misc{paech2023eqbench, title={EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models}, author={Samuel J. Paech}, year={2023}, eprint={2312.06281}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```

许可证：MIT协议语言：英语美观名称：EQ-Bench 样本规模类别：少于1000条 --- # EQ-Bench 本数据集为EQ-Bench v2英语版数据集，所有荣誉归于Samuel J. Paech。 --- ### 论文标题：《EQ-Bench：面向大语言模型（Large Language Model, LLM）的情感智能基准测试》摘要链接：https://arxiv.org/abs/2312.06281 EQ-Bench是一款专为评估大语言模型情感智能而设计的基准测试套件。为何选择情感智能？其一，该能力属于对用户体验至关重要的能力子集，且未被其他基准测试明确覆盖；其二，通过针对该基准进行微调以提升测试分数并非易事，这使得测试排行榜更难被“刷分”。 EQ-Bench与传统心理测量测试略有不同。它采用特定的提问格式：受试者需先阅读一段对话，随后对其中某一角色可能产生的情绪反应强度进行评级。每道题目均为阐释性问题，旨在评估模型预测给定4种情绪强度的能力。该测试无需人工评委即可完成评分（因此不存在长度偏差），运行成本低廉（仅包含171道题目），且生成的结果与人类偏好评分（Arena ELO）及多领域基准测试（如MMLU）具有强相关性。官方主页：https://eqbench.com/ ### 引用 bibtex @misc{paech2023eqbench, title={EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models}, author={Samuel J. Paech}, year={2023}, eprint={2312.06281}, archivePrefix={arXiv}, primaryClass={cs.CL} }

提供机构：

pbevan11

原始信息汇总

EQ-Bench

概述

EQ-Bench是一个用于评估大型语言模型情感智能的基准测试。该数据集由Samuel J. Paech创建，旨在测试语言模型在情感智能方面的能力。

特点

情感智能测试：EQ-Bench专注于评估语言模型的情感智能，这是用户体验中重要的一部分，且在其他基准测试中未被明确测试。
难以通过微调提高分数：该基准测试设计使得通过微调来提高分数变得困难，从而难以“操纵”排行榜。
独特的测试格式：使用特定的问答格式，要求模型阅读对话并评估其中一个角色的情感反应强度。每个问题都是解释性的，评估模型预测四种情感强度的能力。
无评委评分：测试无需评委评分，避免了长度偏差。
成本效益高：测试包含171个问题，成本低廉。
结果相关性强：测试结果与人类偏好（Arena ELO）和多领域基准测试（如MMLU）有很强的相关性。

引用

bibtex @misc{paech2023eqbench, title={EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models}, author={Samuel J. Paech}, year={2023}, eprint={2312.06281}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在情感智能评估领域，EQ-Bench v2数据集的构建体现了严谨的心理学与计算语言学交叉设计理念。该数据集采用特定对话情境下的情绪强度评级范式，通过呈现一段对话后要求模型对角色可能的情感反应强度进行量化评估。每个问题均围绕四种预设情绪展开，旨在衡量模型对情感幅度的预测能力。数据收集过程聚焦于171个精心设计的解释性问题，无需人工评判即可自动评分，有效避免了长度偏差，同时确保了评估的经济性与可扩展性。

使用方法

使用EQ-Bench v2数据集时，研究者需遵循其标准化的评估流程。首先将模型置于对话情境中，要求其根据上下文对指定角色的四种情绪反应强度进行评级。评估过程完全基于171个预设问题展开，无需额外人工标注或干预。得分通过自动化机制计算，可直接用于横向比较不同模型的情感智能水平。该数据集适用于大规模语言模型的基准测试，其结果可作为模型情感理解能力的可靠指标，并可与人类偏好数据及其他综合基准进行关联分析，以全面评估模型的综合性能。

背景与挑战

背景概述

在人工智能领域，大型语言模型的情感智能评估逐渐成为研究焦点。EQ-Bench数据集由Samuel J. Paech于2023年创建，旨在系统性地衡量语言模型的情感理解能力。该数据集通过模拟对话场景，要求模型预测角色情感反应的强度，从而评估其情感推理的细腻程度。其设计不仅弥补了传统心理测量工具的不足，更与人类偏好及多领域基准测试呈现强相关性，为语言模型的用户体验优化提供了关键性评估工具。

当前挑战

EQ-Bench致力于解决情感智能评估中的核心挑战：如何量化语言模型对复杂情感互动的理解能力。传统心理测试往往难以直接适用于语言模型，而该数据集通过设计解释性问题和情感强度评分机制，避免了长度偏差和主观评判的干扰。在构建过程中，研究者需克服情感标注的一致性问题，确保171个问题既能全面覆盖情感维度，又能保持评估的经济性与高效性。此外，如何使测试结果与人类偏好高度相关，同时防止模型通过针对性微调操纵评分，亦是数据集设计中的关键难点。

常用场景

经典使用场景

在自然语言处理领域，EQ-Bench作为情感智能基准测试的典范，其经典使用场景聚焦于评估大型语言模型的情感理解能力。通过模拟人类对话情境，该数据集要求模型解读角色互动并量化情感反应强度，从而系统性地衡量模型在复杂社会情绪推理方面的表现。这一设计不仅避免了传统基准测试的长度偏差，还以低成本、高效率的方式提供了可重复的评估框架，成为研究者优化模型情感交互功能的关键工具。

解决学术问题

EQ-Bench致力于解决人工智能领域长期存在的情感智能量化难题。传统语言模型评估多侧重于知识检索或逻辑推理，而忽视了情感维度对人类交互体验的核心影响。该数据集通过结构化情感强度评分机制，填补了多模态情感理解与模型行为预测之间的理论空白。其创新性在于将心理学的情感测量范式转化为可计算的基准任务，为模型在共情能力、社会认知等非结构化能力方面的进步提供了可验证的研究路径。

实际应用

在实际应用层面，EQ-Bench为开发具有高情感智能的对话系统提供了关键评估标准。在心理健康支持、客户服务自动化、教育陪伴机器人等场景中，模型的情感理解能力直接决定了用户体验的真实性与有效性。该数据集使企业能够量化比较不同模型的情感交互性能，指导具有社会适应性的AI产品优化。其与人类偏好评价的高度相关性，更使其成为产业界筛选商用语言模型的重要参考指标。

数据集最近研究