SOK-Bench

Name: SOK-Bench
Creator: 香港大学
Published: 2024-05-17 10:18:16
License: 暂无描述

arXiv2024-05-17 更新2024-06-24 收录

下载链接：

www.bobbywu.com/SOKBench

下载链接

链接失效反馈

官方服务：

资源简介：

SOK-Bench是一个由香港大学等机构创建的全新视频推理基准数据集，包含44,000个问题和10,000个视频片段，旨在评估模型在动态、开放世界和结构化知识背景下的推理能力。数据集通过结合大型语言模型和多模态大型语言模型自动生成问题-答案对、知识图谱和推理过程，确保了数据的高质量和多样性。该数据集特别适用于评估模型在理解和应用场景知识及通用知识解决问题的能力，为人工智能领域提供了一个重要的研究和测试平台。

SOK-Bench is a novel video reasoning benchmark dataset developed by institutions including the University of Hong Kong. It comprises 44,000 questions and 10,000 video clips, and is designed to evaluate the reasoning capabilities of models under dynamic, open-world, and structured knowledge contexts. The dataset automatically generates question-answer pairs, knowledge graphs, and reasoning processes by combining large language models (LLMs) and multimodal large language models (MLLMs), thus ensuring high data quality and diversity. This benchmark is particularly suitable for assessing models' abilities to comprehend and apply both scenario-specific knowledge and general knowledge to solve problems, serving as a critical research and testing platform for the field of artificial intelligence.

提供机构：

香港大学

创建时间：

2024-05-16

搜集汇总

数据集介绍

构建方式

SOK-Bench数据集的构建采用了自动化的方式，首先从视频中提取可观察到的情境实体、关系和过程，形成情境知识；然后，将情境知识扩展到开放世界的知识，包括可视内容之外的知识。为了生成任务，我们采用了多轮对话的方式，并通过设计的自我提示和演示进行纠正和细化。我们还利用了显式的情境事实和隐式的常识，生成了相关的问题-答案对和推理过程，并最终通过人工审查来确保质量。

特点

SOK-Bench数据集具有以下特点：1. 实例级注释：数据集包含44K个问题和10K个情境，每个问题-答案对都与一个超图相关联，该超图由情境知识图、通用知识图和情境常识知识图组成，有效地展示了情境知识与通用知识之间的关系。2. 组成式生成：数据集涵盖了12种问题类型，每个问题都伴随着一个直接答案和四个多选题选项，确保了问题的多样性和评估的灵活性。3. 结构对齐：数据集的结构对齐了情境开放世界知识和推理过程，使得推理过程更加精确。

使用方法

SOK-Bench数据集的使用方法如下：1. 底部向上QA生成：手动设计问题模板，根据知识图设计问题模板，并提供基于图的问题和答案。2. 顶部向下QA生成：自动使用LLM生成问题，设计一个包含五个元素的结构化提示，包括视频内容、集成图、QA示例、生成目标和输出格式，LLM根据集成图中的多边生成多选题。3. 质量验证：邀请人类助手评估部分图和QA的质量，以确保数据集的有效性。

背景与挑战

背景概述

SOK-Bench 数据集是在 2024 年 5 月由香港大学、MIT-IBM Watson AI 实验室、清华大学、AWS AI 和马萨诸塞大学阿默斯特分校的研究人员共同创建的。该数据集旨在推动从视觉上下文和场景中学习常识推理的研究，这是迈向高级人工智能的关键一步。SOK-Bench 包含 44K 个问题和 10K 个场景，每个场景都有实例级别的注释。该数据集要求模型理解和应用情境知识和通用知识来解决问题。为了创建这样一个数据集，研究人员提出了一种自动和可扩展的生成方法，通过指令 LLM 和 MLLM 的组合来生成问答对、知识图谱和推理过程。

当前挑战

SOK-Bench 数据集面临的挑战包括：1) 模型在动态、开放世界和结构化情境下的常识推理能力仍然有限；2) 构建过程中需要解决如何有效地提取视频中的情境实体、关系和过程，并将其与通用知识相结合的问题；3) 如何自动生成高质量的问答对，并确保其与知识图谱和推理过程之间的一致性；4) 如何评估模型在解决现实世界问题时的推理能力，并找到模型在推理过程中存在的不足之处。

常用场景

经典使用场景

SOK-Bench 数据集主要用于评估视觉语言模型在动态、开放世界和结构化上下文中进行情境和开放世界常识推理的能力。该数据集包含 44K 个问答对和 10K 个视频片段，涵盖了 12 种问题类型。模型需要利用情境中的事实和必要的常识或背景知识来产生适当的推理。

实际应用

SOK-Bench 数据集在实际应用中可用于开发更高级的人工智能系统，这些系统能够在动态、现实世界的上下文中进行情境和开放世界常识推理。该数据集可用于训练视觉语言模型，使其能够更好地理解和解释视频内容，并从情境和开放世界知识中进行推理。这可以应用于各种领域，例如视频问答、视频内容理解、人机交互等。

衍生相关工作

SOK-Bench 数据集的提出推动了视觉语言模型在常识推理方面的研究。基于该数据集，研究人员可以开发新的模型和方法来提高视觉语言模型在理解视频中的情境和推理开放域知识方面的能力。此外，SOK-Bench 数据集还可以用于评估其他视觉语言模型在常识推理方面的性能，并为这些模型的改进提供参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集