five

livebench_data_analysis

收藏
魔搭社区2025-11-27 更新2025-03-29 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/livebench_data_analysis
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for "livebench/data_analysis" LiveBench is a benchmark for LLMs designed with test set contamination and objective evaluation in mind. It has the following properties: - LiveBench is designed to limit potential contamination by releasing new questions monthly, as well as having questions based on recently-released datasets, arXiv papers, news articles, and IMDb movie synopses. - Each question has verifiable, objective ground-truth answers, allowing hard questions to be scored accurately and automatically, without the use of an LLM judge. - LiveBench currently contains a set of 18 diverse tasks across 6 categories, and we will release new, harder tasks over time. This is the instruction_following category of livebench. See more in our [paper](https://arxiv.org/abs/2406.19314), [leaderboard](https://livebench.ai/), and [datasheet](https://github.com/LiveBench/LiveBench/blob/main/docs/DATASHEET.md).

# 「livebench/data_analysis」数据集卡片 LiveBench是一款专为大语言模型(Large Language Model,LLM)设计的基准测试套件,其研发初衷兼顾了测试集污染防控与客观评估两大核心目标。该基准具备以下特性: - LiveBench通过每月发布全新题目、且题目基于最新公开数据集、arXiv论文、新闻文章以及IMDb电影剧情简介,以限制潜在的测试集污染问题。 - 每道题目均配有可验证的客观标准答案,即便针对高难度题目,也可无需借助大语言模型评判器,实现精准自动评分。 - 当前LiveBench涵盖6大类别下的18项多样化任务,后续还将陆续发布难度更高的全新任务。 本数据集为LiveBench的指令遵循类别。 更多详情可查阅我们的[论文](https://arxiv.org/abs/2406.19314)、[排行榜](https://livebench.ai/)及[数据集说明文档](https://github.com/LiveBench/LiveBench/blob/main/docs/DATASHEET.md).
提供机构:
maas
创建时间:
2025-03-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是LiveBench基准的一部分,专注于限制LLMs测试集污染并提供客观评估,包含18个多样化任务,每月更新问题并基于最新数据源设计,所有问题均有可验证的客观答案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作