livebench/math

Name: livebench/math
Creator: livebench
Published: 2025-04-07 20:34:11
License: 暂无描述

Hugging Face2025-04-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/livebench/math

下载链接

链接失效反馈

官方服务：

资源简介：

LiveBench是一个为限制测试集污染和实现客观评估而设计的大语言模型（LLM）基准测试。它具有以下特点：LiveBench通过每月发布新问题以及基于最新数据集、arXiv论文、新闻文章和IMDb电影摘要的问题来限制潜在的污染。每个问题都有可验证的客观真实答案，使得难题能够准确自动评分，无需使用LLM评判。LiveBench目前包含18个多样化的任务，分布在6个类别中，并计划随时间发布新的更困难的任务。这是livebench的instruction_following类别。

提供机构：

livebench

原始信息汇总

数据集信息

特征

question_id: 字符串类型
category: 字符串类型
turns: 字符串序列
ground_truth: 字符串类型
grouping: 字符串类型
release_date: 整数类型 (int64)
hardness: 浮点数类型 (float64)
expressions: 字符串类型

数据分割

test:
- 字节数: 268694
- 样本数: 232

数据集大小

下载大小: 90590 字节
数据集大小: 268694 字节

配置

default:
- 数据文件:
  - 分割: test
  - 路径: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集