radm/arenahard_gpt4vsllama3

Name: radm/arenahard_gpt4vsllama3
Creator: radm
Published: 2024-06-03 09:36:00
License: 暂无描述

Hugging Face2024-06-03 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/radm/arenahard_gpt4vsllama3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为微调Llama-3-70B-Instruct模型作为Arena Hard的评判者而创建的。数据集包含以下字段：问题ID（来自Arena Hard）、原始指令（来自Arena Hard）、被评估的模型（其响应与基线模型GPT-4-0314进行比较）、输入（被评估模型和基线模型的响应，按正序和反序排列）、被选中的评估（由Arena Hard默认的评判者GPT-4-1106-preview评估）和被拒绝的评估（由Llama-3-70B-Instruct评估）。

提供机构：

radm

原始信息汇总

数据集概述

数据集名称

radm/arenahard_gpt4vsllama3

数据集用途

用于微调Llama-3-70B-Instruct模型，作为Arena Hard的评判。

数据集内容

数据字段

question_id: Arena Hard的问题ID。
instruction: 来自Arena Hard的原始指令。
model: 被评估模型及其相对于基准模型（gpt-4-0314）的表现评分。包括gpt-4-turbo-2024-04-09（得分：82.6）和Llama-2-70b-chat-hf（得分：11.6）。
input: 被评估模型和基准模型的响应，以正向和反向顺序呈现。
chosen: 由Arena Hard默认评判（gpt-4-1106-preview）的答案评估。
rejected: 由Llama-3-70B-Instruct（MaziyarPanahi/Meta-Llama-3-70B-Instruct-GPTQ）的答案评估。

许可证

apache-2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集