five

LiveBenchDetailedResults

收藏
Hugging Face2024-07-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/lmms-lab/LiveBenchDetailedResults
下载链接
链接失效反馈
官方服务:
资源简介:
数据集包含两个配置版本:2024-06和2024-07。每个配置版本都有多个拆分,每个拆分包含不同数量的字节和示例。数据集的特征包括ID、图像、问题、真实答案、评分标准、子任务、响应、分数和理由。数据集主要用于评估和上传模型日志。
创建时间:
2024-07-12
原始信息汇总

数据集概述

数据集版本

  • 2024-06
  • 2024-07

数据集特征

  • id: 数据类型为 int32
  • images: 序列类型为 image
  • question: 数据类型为 string
  • ground_truth: 数据类型为 string
  • criteria: 数据类型为 string
  • subtask: 数据类型为 string
  • response: 数据类型为 string
  • score: 数据类型为 int32
  • reason: 数据类型为 string

数据集分割

2024-06

  • internvl2_2b: 256370861 字节, 250 个样本
  • gemini_1.5_flash: 256438737 字节, 250 个样本
  • internvl2_8b: 256365926 字节, 250 个样本
  • gpt_4_turbo: 256546455 字节, 250 个样本
  • gpt_4o: 256573163 字节, 250 个样本
  • gemini_1.5_pro: 256488578 字节, 250 个样本
  • internvl2_4b: 256358614 字节, 250 个样本
  • llava_1.5_13b: 256393532 字节, 250 个样本
  • llava_1.5_7b: 256381936 字节, 250 个样本
  • llava_v1.6_34b: 256543075.0 字节, 250 个样本
  • InternVL2_26B: 256363555.0 字节, 250 个样本
  • internlm_xcomposer2_4khd_7b: 256280148.0 字节, 250 个样本
  • idefics2_8b: 256228679.0 字节, 250 个样本
  • InternVL_Chat_V1_5: 256343519.0 字节, 250 个样本
  • instructblip_vicuna_13b: 256347705.0 字节, 250 个样本
  • instructblip_vicuna_7b: 256344479.0 字节, 250 个样本
  • llava_next_72b: 256489183.0 字节, 250 个样本
  • llama3_llava_next_8b: 256571765.0 字节, 250 个样本
  • claude_3_5_sonnet_20240620: 256512716.0 字节, 250 个样本

2024-07

  • llama3_llava_next_8b: 282019635.0 字节, 250 个样本

数据集大小

  • 2024-06: 下载大小为 4866973552 字节, 数据集大小为 4871942626.0 字节
  • 2024-07: 下载大小为 141588837 字节, 数据集大小为 282019635.0 字节

数据文件路径

2024-06

  • gemini_1.5_flash: 2024-06/gemini_1.5_flash-*
  • gemini_1.5_pro: 2024-06/gemini_1.5_pro-*
  • gpt_4_turbo: 2024-06/gpt_4_turbo-*
  • gpt_4o: 2024-06/gpt_4o-*
  • internvl2_2b: 2024-06/internvl2_2b-*
  • internvl2_8b: 2024-06/internvl2_8b-*
  • llama3_llava_next_8b: 2024-06/llama3_llava_next_8b-*
  • internvl2_4b: 2024-06/internvl2_4b-*
  • llava_1.5_13b: 2024-06/llava_1.5_13b-*
  • llava_1.5_7b: 2024-06/llava_1.5_7b-*
  • llava_v1.6_34b: 2024-06/llava_v1.6_34b-*
  • InternVL2_26B: 2024-06/InternVL2_26B-*
  • internlm_xcomposer2_4khd_7b: 2024-06/internlm_xcomposer2_4khd_7b-*
  • idefics2_8b: 2024-06/idefics2_8b-*
  • InternVL_Chat_V1_5: 2024-06/InternVL_Chat_V1_5-*
  • instructblip_vicuna_13b: 2024-06/instructblip_vicuna_13b-*
  • instructblip_vicuna_7b: 2024-06/instructblip_vicuna_7b-*
  • llava_next_72b: 2024-06/llava_next_72b-*
  • claude_3_5_sonnet_20240620: 2024-06/claude_3_5_sonnet_20240620-*

2024-07

  • llama3_llava_next_8b: 2024-07/llama3_llava_next_8b-*
搜集汇总
数据集介绍
main_image_url
构建方式
LiveBenchDetailedResults数据集的构建基于多模态模型的评估结果,通过lmms-eval工具对多个模型进行系统化测试,涵盖了图像、文本等多种数据类型。每个模型的结果被记录并上传至HuggingFace平台,确保了数据的透明性和可追溯性。数据集的构建过程严格遵循标准化流程,确保每个样本的完整性。
特点
该数据集的特点在于其多模态性质,涵盖了图像、文本、评分等多种数据类型,适用于多模态模型的评估与比较。数据集中的每个样本包含了问题、图像、模型响应、评分及评分理由,提供了丰富的上下文信息。此外,数据集还包含了多个模型的评估结果,便于研究者进行横向对比分析。
使用方法
使用该数据集时,研究者可以通过HuggingFace平台直接下载数据,并利用提供的脚本上传新的评估结果。数据集的使用流程简洁明了,用户只需运行指定的Python脚本,即可将模型评估结果上传至平台。通过这种方式,研究者可以轻松扩展数据集,并与其他模型的结果进行对比分析。
背景与挑战
背景概述
LiveBenchDetailedResults数据集是近年来在多模态模型评估领域中的重要资源,旨在为视觉-语言模型提供详尽的性能评估结果。该数据集由多个知名研究机构共同开发,涵盖了多种主流模型在不同任务上的表现。其核心研究问题在于如何通过标准化的评估流程,量化模型在复杂多模态任务中的表现,从而推动模型性能的持续优化。该数据集自2024年发布以来,已成为多模态模型研究的重要基准,为学术界和工业界提供了宝贵的参考依据。
当前挑战
LiveBenchDetailedResults数据集在构建和应用过程中面临多重挑战。首先,多模态任务的复杂性要求评估标准具备高度的灵活性和普适性,以确保不同模型之间的公平比较。其次,数据集的构建需要处理海量的图像和文本数据,这对数据存储、处理和标注提出了极高的要求。此外,随着模型技术的快速发展,如何保持数据集的时效性并持续更新评估标准,也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建效率,也对模型的评估精度提出了更高的要求。
常用场景
经典使用场景
LiveBenchDetailedResults数据集在多模态模型评估领域具有重要应用,尤其是在视觉与语言结合的模型性能测试中。该数据集通过提供丰富的图像、问题、真实答案及评分标准,为研究人员提供了一个标准化的评估平台,帮助他们在不同模型之间进行性能对比。经典的使用场景包括对GPT-4、Gemini、LLaVA等主流多模态模型的响应质量、准确性和推理能力进行系统性评估。
解决学术问题
该数据集有效解决了多模态模型评估中的标准化问题。通过提供统一的评估标准和详细的评分依据,研究人员能够更加客观地比较不同模型在视觉问答任务中的表现。这不仅有助于推动多模态模型的技术进步,还为学术界提供了一个可靠的基准,促进了相关领域的深入研究。
衍生相关工作
基于LiveBenchDetailedResults数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了新的评估工具和方法,进一步提升了多模态模型评估的效率和准确性。此外,该数据集还催生了一系列改进模型性能的研究,如针对特定任务的模型优化和跨模态融合技术的创新。这些工作不仅丰富了多模态领域的研究成果,也为后续研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作