sgans/JudgeSmall

Name: sgans/JudgeSmall
Creator: sgans
Published: 2024-01-25 12:08:30
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sgans/JudgeSmall

下载链接

链接失效反馈

官方服务：

资源简介：

Judge是一个新的数据集，用于研究LLMs如何处理具有长期记忆、短期记忆和关键信息的判断和写作任务。为了成功，LLM需要基于提供的短期、长期和关键数据对新响应做出正确评估。数据集中的问题涵盖多个类别，如体育、音乐、历史、游戏等。这是数据集的简化版本，仅包含100个问题，旨在低成本测试当前LLMs处理此类问题的能力。

提供机构：

sgans

原始信息汇总

数据集概述

数据集简介

Judge 是一个用于研究大型语言模型（LLMs）如何处理具有长期记忆、短期记忆和关键信息的判断和写作响应的新数据集。该数据集涵盖了多个类别的问题，如体育、音乐、历史、游戏等。

数据集规模

这是一个小型版本的数据集，仅包含100个问题。设计用于低成本测试当前LLMs处理这类问题的能力。

LLM 结果

在实验中发现，LLMs在处理4分和5分响应时经常混淆。考虑到这一点后，所有LLMs的分数都有显著提高。

未来工作

寻找防止4分和5分响应混淆的方法。
找出提高GPT4分数的适当指令。
增加数据集规模，创建用于微调的训练集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集