five

sgans/JudgeSmall

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sgans/JudgeSmall
下载链接
链接失效反馈
官方服务:
资源简介:
Judge是一个新的数据集,用于研究LLMs如何处理具有长期记忆、短期记忆和关键信息的判断和写作任务。为了成功,LLM需要基于提供的短期、长期和关键数据对新响应做出正确评估。数据集中的问题涵盖多个类别,如体育、音乐、历史、游戏等。这是数据集的简化版本,仅包含100个问题,旨在低成本测试当前LLMs处理此类问题的能力。

Judge是一个新的数据集,用于研究LLMs如何处理具有长期记忆、短期记忆和关键信息的判断和写作任务。为了成功,LLM需要基于提供的短期、长期和关键数据对新响应做出正确评估。数据集中的问题涵盖多个类别,如体育、音乐、历史、游戏等。这是数据集的简化版本,仅包含100个问题,旨在低成本测试当前LLMs处理此类问题的能力。
提供机构:
sgans
原始信息汇总

数据集概述

数据集简介

Judge 是一个用于研究大型语言模型(LLMs)如何处理具有长期记忆、短期记忆和关键信息的判断和写作响应的新数据集。该数据集涵盖了多个类别的问题,如体育、音乐、历史、游戏等。

数据集规模

这是一个小型版本的数据集,仅包含100个问题。设计用于低成本测试当前LLMs处理这类问题的能力。

LLM 结果

在实验中发现,LLMs在处理4分和5分响应时经常混淆。考虑到这一点后,所有LLMs的分数都有显著提高。

未来工作

  • 寻找防止4分和5分响应混淆的方法。
  • 找出提高GPT4分数的适当指令。
  • 增加数据集规模,创建用于微调的训练集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作