five

radm/arenahard_gpt4vsllama3

收藏
Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/radm/arenahard_gpt4vsllama3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为微调Llama-3-70B-Instruct模型作为Arena Hard的评判者而创建的。数据集包含以下字段:问题ID(来自Arena Hard)、原始指令(来自Arena Hard)、被评估的模型(其响应与基线模型GPT-4-0314进行比较)、输入(被评估模型和基线模型的响应,按正序和反序排列)、被选中的评估(由Arena Hard默认的评判者GPT-4-1106-preview评估)和被拒绝的评估(由Llama-3-70B-Instruct评估)。

该数据集是为微调Llama-3-70B-Instruct模型作为Arena Hard的评判者而创建的。数据集包含以下字段:问题ID(来自Arena Hard)、原始指令(来自Arena Hard)、被评估的模型(其响应与基线模型GPT-4-0314进行比较)、输入(被评估模型和基线模型的响应,按正序和反序排列)、被选中的评估(由Arena Hard默认的评判者GPT-4-1106-preview评估)和被拒绝的评估(由Llama-3-70B-Instruct评估)。
提供机构:
radm
原始信息汇总

数据集概述

数据集名称

radm/arenahard_gpt4vsllama3

数据集用途

用于微调Llama-3-70B-Instruct模型,作为Arena Hard的评判。

数据集内容

数据字段

  • question_id: Arena Hard的问题ID。
  • instruction: 来自Arena Hard的原始指令。
  • model: 被评估模型及其相对于基准模型(gpt-4-0314)的表现评分。包括gpt-4-turbo-2024-04-09(得分:82.6)和Llama-2-70b-chat-hf(得分:11.6)。
  • input: 被评估模型和基准模型的响应,以正向和反向顺序呈现。
  • chosen: 由Arena Hard默认评判(gpt-4-1106-preview)的答案评估。
  • rejected: 由Llama-3-70B-Instruct(MaziyarPanahi/Meta-Llama-3-70B-Instruct-GPTQ)的答案评估。

许可证

apache-2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作