five

livebench/language

收藏
Hugging Face2025-04-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/livebench/language
下载链接
链接失效反馈
官方服务:
资源简介:
LiveBench是一个为大型语言模型设计的基准测试,旨在通过每月发布新问题以及基于最新发布的数据集、arXiv论文、新闻文章和IMDb电影摘要的问题来限制潜在的测试集污染。每个问题都有可验证的客观答案,使得难题能够准确且自动地评分,而无需使用LLM评判。LiveBench目前包含6个类别下的18个多样化任务,并计划在未来发布更困难的任务。这是LiveBench的instruction_following类别。

LiveBench is a benchmark for LLMs designed to minimize test set contamination and facilitate objective evaluation. The dataset is updated monthly with new questions based on recent datasets, arXiv papers, news articles, and IMDb movie synopses. Each question has verifiable, objective ground-truth answers, allowing for accurate and automatic scoring without the need for an LLM judge. Currently, LiveBench contains 18 diverse tasks across 6 categories and will release new, harder tasks over time.
提供机构:
livebench
原始信息汇总

数据集概述

数据集特征

  • question_id: 字符串类型
  • category: 字符串类型
  • turns: 字符串序列类型
  • ground_truth: 字符串类型
  • grouping: 字符串类型
  • citation: 字符串类型
  • movie_name: 字符串类型
  • raw_id: 整数类型
  • release_date: 字符串类型
  • group: 字符串类型

数据集分割

  • 测试集 (test):
    • 数据量: 467097 字节
    • 示例数量: 140

数据集大小

  • 下载大小: 277545 字节
  • 数据集总大小: 467097 字节

配置

  • 默认配置 (default):
    • 数据文件路径: data/test-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
livebench/language数据集是LiveBench基准测试的一部分,专注于语言任务,包含190行文本数据,旨在评估LLMs在防止测试集污染和客观评估方面的表现。该数据集每月更新,问题基于最新资源生成,具有可验证的客观答案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作