LiveBench

Name: LiveBench
Creator: Abacus.AI, NYU, Nvidia, UMD, USC
Published: 2024-06-28 00:47:42
License: 暂无描述

arXiv2024-06-28 更新2024-06-29 收录

下载链接：

https://livebench.ai

下载链接

链接失效反馈

官方服务：

资源简介：

LiveBench是由Abacus.AI、NYU、Nvidia、UMD和USC联合创建的一个大型语言模型（LLM）基准测试数据集。该数据集包含18个任务，涵盖数学、编程、推理、语言理解、指令遵循和数据分析等多个领域。LiveBench的特点在于其问题基于最新的信息源，如最近的数学竞赛、arXiv论文、新闻文章和数据集，且答案评分自动根据客观事实进行，无需LLM或人工评判。数据集旨在解决传统基准测试中存在的数据污染问题，确保评估的公正性和有效性。

LiveBench is a large language model (LLM) benchmark dataset jointly created by Abacus.AI, NYU, Nvidia, UMD, and USC. This dataset comprises 18 tasks spanning multiple domains including mathematics, programming, reasoning, language understanding, instruction following, and data analysis. A distinctive feature of LiveBench is that its questions are sourced from up-to-date information resources such as recent mathematics competitions, arXiv papers, news articles, and datasets. Additionally, its answer scoring is conducted automatically based on objective facts, eliminating the need for LLM or human evaluation. The dataset is designed to resolve the data contamination issue present in traditional benchmark tests, thereby guaranteeing the fairness and effectiveness of the evaluation.

提供机构：

Abacus.AI, NYU, Nvidia, UMD, USC

创建时间：

2024-06-28

原始信息汇总

LiveBench 数据集概述

数据集介绍

LiveBench 是一个专为大型语言模型（LLMs）设计的基准测试，旨在避免测试集污染并实现客观评估。该数据集具有以下特点：

定期更新：每月发布新问题，问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介。
客观评分：每个问题都有可验证的、客观的正确答案，允许自动准确评分，无需使用 LLM 作为评判。
多样性：目前包含 17 个不同任务，涵盖 6 个类别，并将定期发布新的、更难的任务。

数据集内容

LiveBench 数据集包含多个任务，涵盖以下类别：

推理
编程
数学
数据分析
语言
综合评估

数据集使用

用户可以通过在 GitHub 上提交 issue 或发送电子邮件至 livebench.ai@gmail.com 来评估他们的模型。

数据集来源

LiveBench 由以下机构和人员共同开发：

Abacus.AI: Colin White, Samuel Dooley, Manley Roberts, Arka Pal
NYU: Ben Feuer, Ravid Shwartz-Ziv, Chinmay Hegde, Yann LeCun, Micah Goldblum
Nvidia: Siddhartha Jain
UMD: Tom Goldstein
USC: Willie Neiswanger

数据集引用

如需引用 LiveBench 数据集，请使用以下 BibTeX 格式： bibtex @article{livebench, author = {White, Colin and Dooley, Samuel and Roberts, Manley and Pal, Arka and Feuer, Ben and Jain, Siddhartha and Shwartz-Ziv, Ravid and Jain, Neel and Saifullah, Khalid and Naidu, Siddartha and Hegde, Chinmay and LeCun, Yann and Goldstein, Tom and Neiswanger, Willie and Goldblum, Micah}, title = {LiveBench: A Challenging, Contamination-Free LLM Benchmark}, url = {arXiv preprint arXiv:2406.19314}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

LiveBench数据集的构建旨在解决测试集污染问题，并通过自动评分机制避免LLM评判和人类众包的缺陷。数据集包含来自近期信息源的问题，如数学竞赛、arXiv论文和新闻文章，并在此基础上设计了更具挑战性的任务。问题每月更新，确保其与最新信息同步。数据集通过客观的真实值自动评分，避免了LLM评判的主观性。

特点

LiveBench数据集的特点在于其多样性和挑战性。它涵盖了数学、编程、推理、语言理解、指令遵循和数据分析六大类别，每个类别下包含多个任务。数据集的问题设计复杂，当前最先进的模型在其上的准确率也不超过65%。此外，数据集通过频繁更新和任务难度的逐步提升，能够有效区分不同LLM的能力。

使用方法

LiveBench数据集的使用方法包括模型的单轮评估和自动评分。每个问题根据其类别和任务设计特定的提示，要求模型在零样本思维链的引导下进行推理，并输出易于解析的答案。评分基于模型答案与真实值的匹配程度，确保评估的客观性。数据集的所有问题、代码和模型答案均公开，鼓励社区参与和协作扩展任务和模型。

背景与挑战

背景概述

LiveBench是一个专为评估大型语言模型（LLMs）而设计的新型基准测试，旨在解决测试集污染和LLM评判的局限性问题。该基准由Abacus.AI、NYU、Nvidia、UMD和USC等机构的研究人员于2024年6月发布。LiveBench的核心研究问题在于如何确保LLM评估的公平性和准确性，尤其是在测试数据可能被模型训练集污染的情况下。通过引入基于最新信息源的问题，并采用客观的自动评分机制，LiveBench在数学、编程、推理、语言理解、指令遵循和数据分析等多个领域提供了多样化的挑战任务。该基准的发布对LLM评估领域产生了重要影响，推动了更公平、更可靠的模型评估方法的发展。

当前挑战

LiveBench面临的挑战主要体现在两个方面。首先，测试集污染问题使得传统的基准测试难以准确评估LLM的真实能力，因为模型可能在训练过程中已经接触过测试数据。其次，依赖LLM或人类评判的基准测试容易引入偏见，尤其是在处理复杂推理和数学问题时，LLM评判的误差率可能高达46%。此外，构建LiveBench的过程中，研究人员需要确保问题的多样性和难度，同时避免数据污染。为此，LiveBench采用了基于最新信息源的问题生成方法，并通过自动评分机制减少评判偏见。然而，如何持续更新问题并保持基准的挑战性，仍然是未来需要解决的关键问题。

常用场景

经典使用场景

LiveBench数据集主要用于评估大型语言模型（LLMs）在多个复杂任务中的表现，涵盖数学、编程、推理、语言理解、指令遵循和数据分析等领域。其经典使用场景包括对模型在最新信息源上的表现进行评估，确保模型能够处理动态更新的问题，并避免测试集污染问题。通过自动评分机制，LiveBench能够客观地衡量模型在各类任务中的准确性，尤其是在面对高难度问题时，模型的真实能力得以充分展现。

实际应用

在实际应用中，LiveBench可用于评估和比较不同LLM在真实场景中的表现，尤其是在需要处理动态信息、复杂推理和多样化任务的场景中。例如，在数据科学领域，LiveBench的表格格式化、列类型标注和表连接预测任务能够帮助评估模型在实际数据分析中的能力。此外，LiveBench的编程任务可以用于评估模型在代码生成和补全中的表现，为开发者提供参考。通过定期更新问题，LiveBench能够持续跟踪模型在技术进步中的表现，确保评估的时效性。

衍生相关工作

LiveBench的发布催生了一系列相关研究和工作。例如，基于LiveBench的自动评分机制，研究者们开发了更多针对特定任务的评估框架，如代码生成和数学推理的专项基准测试。此外，LiveBench的防污染设计也启发了其他基准测试的改进，推动了LLM评估领域的标准化。一些研究还利用LiveBench的数据集进行模型微调和优化，进一步提升了模型在复杂任务中的表现。LiveBench的开源性质也促进了社区的广泛参与，推动了更多创新性工作的涌现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集