sgans/JudgeSmall
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sgans/JudgeSmall
下载链接
链接失效反馈官方服务:
资源简介:
Judge是一个新的数据集,用于研究LLMs如何处理具有长期记忆、短期记忆和关键信息的判断和写作任务。为了成功,LLM需要基于提供的短期、长期和关键数据对新响应做出正确评估。数据集中的问题涵盖多个类别,如体育、音乐、历史、游戏等。这是数据集的简化版本,仅包含100个问题,旨在低成本测试当前LLMs处理此类问题的能力。
Judge是一个新的数据集,用于研究LLMs如何处理具有长期记忆、短期记忆和关键信息的判断和写作任务。为了成功,LLM需要基于提供的短期、长期和关键数据对新响应做出正确评估。数据集中的问题涵盖多个类别,如体育、音乐、历史、游戏等。这是数据集的简化版本,仅包含100个问题,旨在低成本测试当前LLMs处理此类问题的能力。
提供机构:
sgans
原始信息汇总
数据集概述
数据集简介
Judge 是一个用于研究大型语言模型(LLMs)如何处理具有长期记忆、短期记忆和关键信息的判断和写作响应的新数据集。该数据集涵盖了多个类别的问题,如体育、音乐、历史、游戏等。
数据集规模
这是一个小型版本的数据集,仅包含100个问题。设计用于低成本测试当前LLMs处理这类问题的能力。
LLM 结果
在实验中发现,LLMs在处理4分和5分响应时经常混淆。考虑到这一点后,所有LLMs的分数都有显著提高。
未来工作
- 寻找防止4分和5分响应混淆的方法。
- 找出提高GPT4分数的适当指令。
- 增加数据集规模,创建用于微调的训练集。



