livebench/model_judgment

Name: livebench/model_judgment
Creator: livebench
Published: 2025-04-07 20:34:22
License: 暂无描述

Hugging Face2025-04-07 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/livebench/model_judgment

下载链接

链接失效反馈

官方服务：

资源简介：

LiveBench是一个为大型语言模型（LLM）设计的基准测试，旨在限制测试集污染并进行客观评估。它具有以下特点：LiveBench通过每月发布新问题以及基于最新发布的数据集、arXiv论文、新闻文章和IMDb电影摘要生成问题来限制潜在的污染。每个问题都有可验证的客观答案，允许自动准确评分，而无需使用LLM作为评判者。LiveBench目前包含18个多样化的任务，分布在6个类别中，并计划发布更困难的任务。该数据集包含用于创建排行榜的所有模型评分。

提供机构：

livebench

5,000+

优质数据集

54 个

任务类型

进入经典数据集