livebench/language

Name: livebench/language
Creator: livebench
Published: 2025-04-07 20:33:47
License: 暂无描述

Hugging Face2025-04-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/livebench/language

下载链接

链接失效反馈

官方服务：

资源简介：

LiveBench是一个为大型语言模型设计的基准测试，旨在通过每月发布新问题以及基于最新发布的数据集、arXiv论文、新闻文章和IMDb电影摘要的问题来限制潜在的测试集污染。每个问题都有可验证的客观答案，使得难题能够准确且自动地评分，而无需使用LLM评判。LiveBench目前包含6个类别下的18个多样化任务，并计划在未来发布更困难的任务。这是LiveBench的instruction_following类别。

LiveBench is a benchmark for LLMs designed to minimize test set contamination and facilitate objective evaluation. The dataset is updated monthly with new questions based on recent datasets, arXiv papers, news articles, and IMDb movie synopses. Each question has verifiable, objective ground-truth answers, allowing for accurate and automatic scoring without the need for an LLM judge. Currently, LiveBench contains 18 diverse tasks across 6 categories and will release new, harder tasks over time.

提供机构：

livebench

原始信息汇总

数据集概述

数据集特征

question_id: 字符串类型
category: 字符串类型
turns: 字符串序列类型
ground_truth: 字符串类型
grouping: 字符串类型
citation: 字符串类型
movie_name: 字符串类型
raw_id: 整数类型
release_date: 字符串类型
group: 字符串类型

数据集分割

测试集 (test):
- 数据量: 467097 字节
- 示例数量: 140

数据集大小

下载大小: 277545 字节
数据集总大小: 467097 字节

配置

默认配置 (default):
- 数据文件路径: data/test-*

搜集汇总

数据集介绍

背景与挑战

背景概述

livebench/language数据集是LiveBench基准测试的一部分，专注于语言任务，包含190行文本数据，旨在评估LLMs在防止测试集污染和客观评估方面的表现。该数据集每月更新，问题基于最新资源生成，具有可验证的客观答案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集