yizheapple/entity-deduction-arena

Name: yizheapple/entity-deduction-arena
Creator: yizheapple
Published: 2024-05-20 22:43:28
License: 暂无描述

Hugging Face2024-05-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/yizheapple/entity-deduction-arena

下载链接

链接失效反馈

官方服务：

资源简介：

Entity-Deduction Arena (EDA)数据集用于评估大型语言模型（LLMs）在多轮对话中通过提问来澄清模糊查询的能力。该数据集的设计旨在测试模型在理解上下文、状态跟踪、演绎推理和战略规划等方面的能力。通过对多个流行LLMs在测试集上的性能评估，揭示了不同模型在完成任务时的表现差异。

提供机构：

yizheapple

原始信息汇总

数据集概述

名称: Entity-Deduction Arena (EDA)

目的: 评估大型语言模型（LLMs）在多轮对话中通过提问澄清模糊查询的能力，涉及上下文理解、状态跟踪、演绎推理和战略规划。

数据集详情

评估任务: 通过一系列问题向裁判推断实体的能力。
评估模型: 包括GPT-4-0613, GPT-3.5-turbo-0613, Claude-2, Claude-1, Vicuna 13B (v1.3), Vicuna 7B (v1.3), Mistral 7B Inst v0.2等。

评估结果

测试集：Things

模型	#Turns (平均)	Success (成功率)	#Yes (肯定回答次数)	Score (评分)
GPT-4-0613	17.8±0.2	0.31±0.03	5.9±0.1	0.26±0.02
GPT-3.5-turbo-0613	18.2±0.2	0.28±0.02	6.3±0.1	0.23±0.02
Claude-2	18.4±0.3	0.21±0.03	5.0±0.1	0.18±0.03
Claude-1	18.8±0.1	0.16±0.02	4.2±0.1	0.13±0.02
Vicuna 13B (v1.3)	18.4±0.1	0.18±0.02	5.0±0.2	0.15±0.02
Vicuna 7B (v1.3)	19.5±0.2	0.09±0.02	5.7±0.2	0.07±0.02
Mistral 7B Inst v0.2	18.9±0.1	0.13±0.02	3.8±0.5	0.11±0.02

测试集：Celebrities

模型	#Turns (平均)	Success (成功率)	#Yes (肯定回答次数)	Score (评分)
GPT-4-0613	17.3±0.1	0.50±0.02	6.8±0.2	0.40±0.02
GPT-3.5-turbo-0613	18.8±0.2	0.27±0.03	7.4±0.2	0.21±0.03
Claude-2	17.6±0.2	0.31±0.02	5.6±0.1	0.26±0.02
Claude-1	17.7±0.2	0.29±0.03	5.3±0.2	0.25±0.02
Vicuna 13B (v1.3)	18.7±0.2	0.22±0.03	6.1±0.1	0.18±0.02
Vicuna 7B (v1.3)	19.6±0.3	0.06±0.02	5.9±0.2	0.05±0.02
Mistral 7B Inst v0.2	18.2±0.1	0.22±0.04	4.3±0.1	0.20±0.03

5,000+

优质数据集

54 个

任务类型

进入经典数据集