five

LiveBench|语言模型数据集|基准测试数据集

收藏
arXiv2024-06-28 更新2024-06-29 收录
语言模型
基准测试
下载链接:
https://livebench.ai
下载链接
链接失效反馈
资源简介:
LiveBench是由Abacus.AI、NYU、Nvidia、UMD和USC联合创建的一个大型语言模型(LLM)基准测试数据集。该数据集包含18个任务,涵盖数学、编程、推理、语言理解、指令遵循和数据分析等多个领域。LiveBench的特点在于其问题基于最新的信息源,如最近的数学竞赛、arXiv论文、新闻文章和数据集,且答案评分自动根据客观事实进行,无需LLM或人工评判。数据集旨在解决传统基准测试中存在的数据污染问题,确保评估的公正性和有效性。
提供机构:
Abacus.AI, NYU, Nvidia, UMD, USC
创建时间:
2024-06-28
原始信息汇总

LiveBench 数据集概述

数据集介绍

LiveBench 是一个专为大型语言模型(LLMs)设计的基准测试,旨在避免测试集污染并实现客观评估。该数据集具有以下特点:

  • 定期更新:每月发布新问题,问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介。
  • 客观评分:每个问题都有可验证的、客观的正确答案,允许自动准确评分,无需使用 LLM 作为评判。
  • 多样性:目前包含 17 个不同任务,涵盖 6 个类别,并将定期发布新的、更难的任务。

数据集内容

LiveBench 数据集包含多个任务,涵盖以下类别:

  • 推理
  • 编程
  • 数学
  • 数据分析
  • 语言
  • 综合评估

数据集使用

用户可以通过在 GitHub 上提交 issue 或发送电子邮件至 livebench.ai@gmail.com 来评估他们的模型。

数据集来源

LiveBench 由以下机构和人员共同开发:

  • Abacus.AI: Colin White, Samuel Dooley, Manley Roberts, Arka Pal
  • NYU: Ben Feuer, Ravid Shwartz-Ziv, Chinmay Hegde, Yann LeCun, Micah Goldblum
  • Nvidia: Siddhartha Jain
  • UMD: Tom Goldstein
  • USC: Willie Neiswanger

数据集引用

如需引用 LiveBench 数据集,请使用以下 BibTeX 格式: bibtex @article{livebench, author = {White, Colin and Dooley, Samuel and Roberts, Manley and Pal, Arka and Feuer, Ben and Jain, Siddhartha and Shwartz-Ziv, Ravid and Jain, Neel and Saifullah, Khalid and Naidu, Siddartha and Hegde, Chinmay and LeCun, Yann and Goldstein, Tom and Neiswanger, Willie and Goldblum, Micah}, title = {LiveBench: A Challenging, Contamination-Free LLM Benchmark}, url = {arXiv preprint arXiv:2406.19314}, year = {2024}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
LiveBench数据集的构建旨在解决测试集污染问题,并通过自动评分机制避免LLM评判和人类众包的缺陷。数据集包含来自近期信息源的问题,如数学竞赛、arXiv论文和新闻文章,并在此基础上设计了更具挑战性的任务。问题每月更新,确保其与最新信息同步。数据集通过客观的真实值自动评分,避免了LLM评判的主观性。
特点
LiveBench数据集的特点在于其多样性和挑战性。它涵盖了数学、编程、推理、语言理解、指令遵循和数据分析六大类别,每个类别下包含多个任务。数据集的问题设计复杂,当前最先进的模型在其上的准确率也不超过65%。此外,数据集通过频繁更新和任务难度的逐步提升,能够有效区分不同LLM的能力。
使用方法
LiveBench数据集的使用方法包括模型的单轮评估和自动评分。每个问题根据其类别和任务设计特定的提示,要求模型在零样本思维链的引导下进行推理,并输出易于解析的答案。评分基于模型答案与真实值的匹配程度,确保评估的客观性。数据集的所有问题、代码和模型答案均公开,鼓励社区参与和协作扩展任务和模型。
背景与挑战
背景概述
LiveBench是一个专为评估大型语言模型(LLMs)而设计的新型基准测试,旨在解决测试集污染和LLM评判的局限性问题。该基准由Abacus.AI、NYU、Nvidia、UMD和USC等机构的研究人员于2024年6月发布。LiveBench的核心研究问题在于如何确保LLM评估的公平性和准确性,尤其是在测试数据可能被模型训练集污染的情况下。通过引入基于最新信息源的问题,并采用客观的自动评分机制,LiveBench在数学、编程、推理、语言理解、指令遵循和数据分析等多个领域提供了多样化的挑战任务。该基准的发布对LLM评估领域产生了重要影响,推动了更公平、更可靠的模型评估方法的发展。
当前挑战
LiveBench面临的挑战主要体现在两个方面。首先,测试集污染问题使得传统的基准测试难以准确评估LLM的真实能力,因为模型可能在训练过程中已经接触过测试数据。其次,依赖LLM或人类评判的基准测试容易引入偏见,尤其是在处理复杂推理和数学问题时,LLM评判的误差率可能高达46%。此外,构建LiveBench的过程中,研究人员需要确保问题的多样性和难度,同时避免数据污染。为此,LiveBench采用了基于最新信息源的问题生成方法,并通过自动评分机制减少评判偏见。然而,如何持续更新问题并保持基准的挑战性,仍然是未来需要解决的关键问题。
常用场景
经典使用场景
LiveBench数据集主要用于评估大型语言模型(LLMs)在多个复杂任务中的表现,涵盖数学、编程、推理、语言理解、指令遵循和数据分析等领域。其经典使用场景包括对模型在最新信息源上的表现进行评估,确保模型能够处理动态更新的问题,并避免测试集污染问题。通过自动评分机制,LiveBench能够客观地衡量模型在各类任务中的准确性,尤其是在面对高难度问题时,模型的真实能力得以充分展现。
实际应用
在实际应用中,LiveBench可用于评估和比较不同LLM在真实场景中的表现,尤其是在需要处理动态信息、复杂推理和多样化任务的场景中。例如,在数据科学领域,LiveBench的表格格式化、列类型标注和表连接预测任务能够帮助评估模型在实际数据分析中的能力。此外,LiveBench的编程任务可以用于评估模型在代码生成和补全中的表现,为开发者提供参考。通过定期更新问题,LiveBench能够持续跟踪模型在技术进步中的表现,确保评估的时效性。
衍生相关工作
LiveBench的发布催生了一系列相关研究和工作。例如,基于LiveBench的自动评分机制,研究者们开发了更多针对特定任务的评估框架,如代码生成和数学推理的专项基准测试。此外,LiveBench的防污染设计也启发了其他基准测试的改进,推动了LLM评估领域的标准化。一些研究还利用LiveBench的数据集进行模型微调和优化,进一步提升了模型在复杂任务中的表现。LiveBench的开源性质也促进了社区的广泛参与,推动了更多创新性工作的涌现。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

ISIC 2019

ISIC 2019数据集包含25,331张皮肤病变图像,用于皮肤癌检测挑战。这些图像分为三个类别:良性、恶性黑色素瘤和基底细胞癌。数据集还包括每张图像的元数据,如病变类型、患者年龄和性别等。

challenge2019.isic-archive.com 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录