radm/arenahard_gpt4vsllama3
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/radm/arenahard_gpt4vsllama3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为微调Llama-3-70B-Instruct模型作为Arena Hard的评判者而创建的。数据集包含以下字段:问题ID(来自Arena Hard)、原始指令(来自Arena Hard)、被评估的模型(其响应与基线模型GPT-4-0314进行比较)、输入(被评估模型和基线模型的响应,按正序和反序排列)、被选中的评估(由Arena Hard默认的评判者GPT-4-1106-preview评估)和被拒绝的评估(由Llama-3-70B-Instruct评估)。
该数据集是为微调Llama-3-70B-Instruct模型作为Arena Hard的评判者而创建的。数据集包含以下字段:问题ID(来自Arena Hard)、原始指令(来自Arena Hard)、被评估的模型(其响应与基线模型GPT-4-0314进行比较)、输入(被评估模型和基线模型的响应,按正序和反序排列)、被选中的评估(由Arena Hard默认的评判者GPT-4-1106-preview评估)和被拒绝的评估(由Llama-3-70B-Instruct评估)。
提供机构:
radm
原始信息汇总
数据集概述
数据集名称
radm/arenahard_gpt4vsllama3
数据集用途
用于微调Llama-3-70B-Instruct模型,作为Arena Hard的评判。
数据集内容
数据字段
- question_id: Arena Hard的问题ID。
- instruction: 来自Arena Hard的原始指令。
- model: 被评估模型及其相对于基准模型(gpt-4-0314)的表现评分。包括gpt-4-turbo-2024-04-09(得分:82.6)和Llama-2-70b-chat-hf(得分:11.6)。
- input: 被评估模型和基准模型的响应,以正向和反向顺序呈现。
- chosen: 由Arena Hard默认评判(gpt-4-1106-preview)的答案评估。
- rejected: 由Llama-3-70B-Instruct(MaziyarPanahi/Meta-Llama-3-70B-Instruct-GPTQ)的答案评估。
许可证
apache-2.0



