five

yizheapple/entity-deduction-arena

收藏
Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yizheapple/entity-deduction-arena
下载链接
链接失效反馈
官方服务:
资源简介:
Entity-Deduction Arena (EDA)数据集用于评估大型语言模型(LLMs)在多轮对话中通过提问来澄清模糊查询的能力。该数据集的设计旨在测试模型在理解上下文、状态跟踪、演绎推理和战略规划等方面的能力。通过对多个流行LLMs在测试集上的性能评估,揭示了不同模型在完成任务时的表现差异。

Entity-Deduction Arena (EDA)数据集用于评估大型语言模型(LLMs)在多轮对话中通过提问来澄清模糊查询的能力。该数据集的设计旨在测试模型在理解上下文、状态跟踪、演绎推理和战略规划等方面的能力。通过对多个流行LLMs在测试集上的性能评估,揭示了不同模型在完成任务时的表现差异。
提供机构:
yizheapple
原始信息汇总

数据集概述

名称: Entity-Deduction Arena (EDA)

目的: 评估大型语言模型(LLMs)在多轮对话中通过提问澄清模糊查询的能力,涉及上下文理解、状态跟踪、演绎推理和战略规划。

数据集详情

  • 评估任务: 通过一系列问题向裁判推断实体的能力。
  • 评估模型: 包括GPT-4-0613, GPT-3.5-turbo-0613, Claude-2, Claude-1, Vicuna 13B (v1.3), Vicuna 7B (v1.3), Mistral 7B Inst v0.2等。

评估结果

测试集:Things

模型 #Turns (平均) Success (成功率) #Yes (肯定回答次数) Score (评分)
GPT-4-0613 17.8±0.2 0.31±0.03 5.9±0.1 0.26±0.02
GPT-3.5-turbo-0613 18.2±0.2 0.28±0.02 6.3±0.1 0.23±0.02
Claude-2 18.4±0.3 0.21±0.03 5.0±0.1 0.18±0.03
Claude-1 18.8±0.1 0.16±0.02 4.2±0.1 0.13±0.02
Vicuna 13B (v1.3) 18.4±0.1 0.18±0.02 5.0±0.2 0.15±0.02
Vicuna 7B (v1.3) 19.5±0.2 0.09±0.02 5.7±0.2 0.07±0.02
Mistral 7B Inst v0.2 18.9±0.1 0.13±0.02 3.8±0.5 0.11±0.02

测试集:Celebrities

模型 #Turns (平均) Success (成功率) #Yes (肯定回答次数) Score (评分)
GPT-4-0613 17.3±0.1 0.50±0.02 6.8±0.2 0.40±0.02
GPT-3.5-turbo-0613 18.8±0.2 0.27±0.03 7.4±0.2 0.21±0.03
Claude-2 17.6±0.2 0.31±0.02 5.6±0.1 0.26±0.02
Claude-1 17.7±0.2 0.29±0.03 5.3±0.2 0.25±0.02
Vicuna 13B (v1.3) 18.7±0.2 0.22±0.03 6.1±0.1 0.18±0.02
Vicuna 7B (v1.3) 19.6±0.3 0.06±0.02 5.9±0.2 0.05±0.02
Mistral 7B Inst v0.2 18.2±0.1 0.22±0.04 4.3±0.1 0.20±0.03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作