yizheapple/entity-deduction-arena
收藏Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yizheapple/entity-deduction-arena
下载链接
链接失效反馈官方服务:
资源简介:
Entity-Deduction Arena (EDA)数据集用于评估大型语言模型(LLMs)在多轮对话中通过提问来澄清模糊查询的能力。该数据集的设计旨在测试模型在理解上下文、状态跟踪、演绎推理和战略规划等方面的能力。通过对多个流行LLMs在测试集上的性能评估,揭示了不同模型在完成任务时的表现差异。
Entity-Deduction Arena (EDA)数据集用于评估大型语言模型(LLMs)在多轮对话中通过提问来澄清模糊查询的能力。该数据集的设计旨在测试模型在理解上下文、状态跟踪、演绎推理和战略规划等方面的能力。通过对多个流行LLMs在测试集上的性能评估,揭示了不同模型在完成任务时的表现差异。
提供机构:
yizheapple
原始信息汇总
数据集概述
名称: Entity-Deduction Arena (EDA)
目的: 评估大型语言模型(LLMs)在多轮对话中通过提问澄清模糊查询的能力,涉及上下文理解、状态跟踪、演绎推理和战略规划。
数据集详情
- 评估任务: 通过一系列问题向裁判推断实体的能力。
- 评估模型: 包括GPT-4-0613, GPT-3.5-turbo-0613, Claude-2, Claude-1, Vicuna 13B (v1.3), Vicuna 7B (v1.3), Mistral 7B Inst v0.2等。
评估结果
测试集:Things
| 模型 | #Turns (平均) | Success (成功率) | #Yes (肯定回答次数) | Score (评分) |
|---|---|---|---|---|
| GPT-4-0613 | 17.8±0.2 | 0.31±0.03 | 5.9±0.1 | 0.26±0.02 |
| GPT-3.5-turbo-0613 | 18.2±0.2 | 0.28±0.02 | 6.3±0.1 | 0.23±0.02 |
| Claude-2 | 18.4±0.3 | 0.21±0.03 | 5.0±0.1 | 0.18±0.03 |
| Claude-1 | 18.8±0.1 | 0.16±0.02 | 4.2±0.1 | 0.13±0.02 |
| Vicuna 13B (v1.3) | 18.4±0.1 | 0.18±0.02 | 5.0±0.2 | 0.15±0.02 |
| Vicuna 7B (v1.3) | 19.5±0.2 | 0.09±0.02 | 5.7±0.2 | 0.07±0.02 |
| Mistral 7B Inst v0.2 | 18.9±0.1 | 0.13±0.02 | 3.8±0.5 | 0.11±0.02 |
测试集:Celebrities
| 模型 | #Turns (平均) | Success (成功率) | #Yes (肯定回答次数) | Score (评分) |
|---|---|---|---|---|
| GPT-4-0613 | 17.3±0.1 | 0.50±0.02 | 6.8±0.2 | 0.40±0.02 |
| GPT-3.5-turbo-0613 | 18.8±0.2 | 0.27±0.03 | 7.4±0.2 | 0.21±0.03 |
| Claude-2 | 17.6±0.2 | 0.31±0.02 | 5.6±0.1 | 0.26±0.02 |
| Claude-1 | 17.7±0.2 | 0.29±0.03 | 5.3±0.2 | 0.25±0.02 |
| Vicuna 13B (v1.3) | 18.7±0.2 | 0.22±0.03 | 6.1±0.1 | 0.18±0.02 |
| Vicuna 7B (v1.3) | 19.6±0.3 | 0.06±0.02 | 5.9±0.2 | 0.05±0.02 |
| Mistral 7B Inst v0.2 | 18.2±0.1 | 0.22±0.04 | 4.3±0.1 | 0.20±0.03 |



