LiveBenchDetailedResults

Hugging Face2024-07-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/LiveBenchDetailedResults

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含两个配置版本：2024-06和2024-07。每个配置版本都有多个拆分，每个拆分包含不同数量的字节和示例。数据集的特征包括ID、图像、问题、真实答案、评分标准、子任务、响应、分数和理由。数据集主要用于评估和上传模型日志。

创建时间：

2024-07-12

原始信息汇总

数据集概述

数据集版本

2024-06
2024-07

数据集特征

id: 数据类型为 int32
images: 序列类型为 image
question: 数据类型为 string
ground_truth: 数据类型为 string
criteria: 数据类型为 string
subtask: 数据类型为 string
response: 数据类型为 string
score: 数据类型为 int32
reason: 数据类型为 string

数据集分割

2024-06

internvl2_2b: 256370861 字节, 250 个样本
gemini_1.5_flash: 256438737 字节, 250 个样本
internvl2_8b: 256365926 字节, 250 个样本
gpt_4_turbo: 256546455 字节, 250 个样本
gpt_4o: 256573163 字节, 250 个样本
gemini_1.5_pro: 256488578 字节, 250 个样本
internvl2_4b: 256358614 字节, 250 个样本
llava_1.5_13b: 256393532 字节, 250 个样本
llava_1.5_7b: 256381936 字节, 250 个样本
llava_v1.6_34b: 256543075.0 字节, 250 个样本
InternVL2_26B: 256363555.0 字节, 250 个样本
internlm_xcomposer2_4khd_7b: 256280148.0 字节, 250 个样本
idefics2_8b: 256228679.0 字节, 250 个样本
InternVL_Chat_V1_5: 256343519.0 字节, 250 个样本
instructblip_vicuna_13b: 256347705.0 字节, 250 个样本
instructblip_vicuna_7b: 256344479.0 字节, 250 个样本
llava_next_72b: 256489183.0 字节, 250 个样本
llama3_llava_next_8b: 256571765.0 字节, 250 个样本
claude_3_5_sonnet_20240620: 256512716.0 字节, 250 个样本

2024-07

llama3_llava_next_8b: 282019635.0 字节, 250 个样本

数据集大小

2024-06: 下载大小为 4866973552 字节, 数据集大小为 4871942626.0 字节
2024-07: 下载大小为 141588837 字节, 数据集大小为 282019635.0 字节

数据文件路径

2024-06

gemini_1.5_flash: 2024-06/gemini_1.5_flash-*
gemini_1.5_pro: 2024-06/gemini_1.5_pro-*
gpt_4_turbo: 2024-06/gpt_4_turbo-*
gpt_4o: 2024-06/gpt_4o-*
internvl2_2b: 2024-06/internvl2_2b-*
internvl2_8b: 2024-06/internvl2_8b-*
llama3_llava_next_8b: 2024-06/llama3_llava_next_8b-*
internvl2_4b: 2024-06/internvl2_4b-*
llava_1.5_13b: 2024-06/llava_1.5_13b-*
llava_1.5_7b: 2024-06/llava_1.5_7b-*
llava_v1.6_34b: 2024-06/llava_v1.6_34b-*
InternVL2_26B: 2024-06/InternVL2_26B-*
internlm_xcomposer2_4khd_7b: 2024-06/internlm_xcomposer2_4khd_7b-*
idefics2_8b: 2024-06/idefics2_8b-*
InternVL_Chat_V1_5: 2024-06/InternVL_Chat_V1_5-*
instructblip_vicuna_13b: 2024-06/instructblip_vicuna_13b-*
instructblip_vicuna_7b: 2024-06/instructblip_vicuna_7b-*
llava_next_72b: 2024-06/llava_next_72b-*
claude_3_5_sonnet_20240620: 2024-06/claude_3_5_sonnet_20240620-*

2024-07

llama3_llava_next_8b: 2024-07/llama3_llava_next_8b-*

搜集汇总

数据集介绍

构建方式

LiveBenchDetailedResults数据集的构建基于多模态模型的评估结果，通过lmms-eval工具对多个模型进行系统化测试，涵盖了图像、文本等多种数据类型。每个模型的结果被记录并上传至HuggingFace平台，确保了数据的透明性和可追溯性。数据集的构建过程严格遵循标准化流程，确保每个样本的完整性。

特点

该数据集的特点在于其多模态性质，涵盖了图像、文本、评分等多种数据类型，适用于多模态模型的评估与比较。数据集中的每个样本包含了问题、图像、模型响应、评分及评分理由，提供了丰富的上下文信息。此外，数据集还包含了多个模型的评估结果，便于研究者进行横向对比分析。

使用方法

使用该数据集时，研究者可以通过HuggingFace平台直接下载数据，并利用提供的脚本上传新的评估结果。数据集的使用流程简洁明了，用户只需运行指定的Python脚本，即可将模型评估结果上传至平台。通过这种方式，研究者可以轻松扩展数据集，并与其他模型的结果进行对比分析。

背景与挑战

背景概述

LiveBenchDetailedResults数据集是近年来在多模态模型评估领域中的重要资源，旨在为视觉-语言模型提供详尽的性能评估结果。该数据集由多个知名研究机构共同开发，涵盖了多种主流模型在不同任务上的表现。其核心研究问题在于如何通过标准化的评估流程，量化模型在复杂多模态任务中的表现，从而推动模型性能的持续优化。该数据集自2024年发布以来，已成为多模态模型研究的重要基准，为学术界和工业界提供了宝贵的参考依据。

当前挑战

LiveBenchDetailedResults数据集在构建和应用过程中面临多重挑战。首先，多模态任务的复杂性要求评估标准具备高度的灵活性和普适性，以确保不同模型之间的公平比较。其次，数据集的构建需要处理海量的图像和文本数据，这对数据存储、处理和标注提出了极高的要求。此外，随着模型技术的快速发展，如何保持数据集的时效性并持续更新评估标准，也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建效率，也对模型的评估精度提出了更高的要求。

常用场景

经典使用场景

LiveBenchDetailedResults数据集在多模态模型评估领域具有重要应用，尤其是在视觉与语言结合的模型性能测试中。该数据集通过提供丰富的图像、问题、真实答案及评分标准，为研究人员提供了一个标准化的评估平台，帮助他们在不同模型之间进行性能对比。经典的使用场景包括对GPT-4、Gemini、LLaVA等主流多模态模型的响应质量、准确性和推理能力进行系统性评估。

解决学术问题

该数据集有效解决了多模态模型评估中的标准化问题。通过提供统一的评估标准和详细的评分依据，研究人员能够更加客观地比较不同模型在视觉问答任务中的表现。这不仅有助于推动多模态模型的技术进步，还为学术界提供了一个可靠的基准，促进了相关领域的深入研究。

衍生相关工作

基于LiveBenchDetailedResults数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了新的评估工具和方法，进一步提升了多模态模型评估的效率和准确性。此外，该数据集还催生了一系列改进模型性能的研究，如针对特定任务的模型优化和跨模态融合技术的创新。这些工作不仅丰富了多模态领域的研究成果，也为后续研究提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集