five

SOK-Bench|视频推理数据集|人工智能数据集

收藏
arXiv2024-05-17 更新2024-06-24 收录
视频推理
人工智能
下载链接:
www.bobbywu.com/SOKBench
下载链接
链接失效反馈
资源简介:
SOK-Bench是一个由香港大学等机构创建的全新视频推理基准数据集,包含44,000个问题和10,000个视频片段,旨在评估模型在动态、开放世界和结构化知识背景下的推理能力。数据集通过结合大型语言模型和多模态大型语言模型自动生成问题-答案对、知识图谱和推理过程,确保了数据的高质量和多样性。该数据集特别适用于评估模型在理解和应用场景知识及通用知识解决问题的能力,为人工智能领域提供了一个重要的研究和测试平台。
提供机构:
香港大学
创建时间:
2024-05-16
AI搜集汇总
数据集介绍
构建方式
SOK-Bench数据集的构建采用了自动化的方式,首先从视频中提取可观察到的情境实体、关系和过程,形成情境知识;然后,将情境知识扩展到开放世界的知识,包括可视内容之外的知识。为了生成任务,我们采用了多轮对话的方式,并通过设计的自我提示和演示进行纠正和细化。我们还利用了显式的情境事实和隐式的常识,生成了相关的问题-答案对和推理过程,并最终通过人工审查来确保质量。
特点
SOK-Bench数据集具有以下特点:1. 实例级注释:数据集包含44K个问题和10K个情境,每个问题-答案对都与一个超图相关联,该超图由情境知识图、通用知识图和情境常识知识图组成,有效地展示了情境知识与通用知识之间的关系。2. 组成式生成:数据集涵盖了12种问题类型,每个问题都伴随着一个直接答案和四个多选题选项,确保了问题的多样性和评估的灵活性。3. 结构对齐:数据集的结构对齐了情境开放世界知识和推理过程,使得推理过程更加精确。
使用方法
SOK-Bench数据集的使用方法如下:1. 底部向上QA生成:手动设计问题模板,根据知识图设计问题模板,并提供基于图的问题和答案。2. 顶部向下QA生成:自动使用LLM生成问题,设计一个包含五个元素的结构化提示,包括视频内容、集成图、QA示例、生成目标和输出格式,LLM根据集成图中的多边生成多选题。3. 质量验证:邀请人类助手评估部分图和QA的质量,以确保数据集的有效性。
背景与挑战
背景概述
SOK-Bench 数据集是在 2024 年 5 月由香港大学、MIT-IBM Watson AI 实验室、清华大学、AWS AI 和马萨诸塞大学阿默斯特分校的研究人员共同创建的。该数据集旨在推动从视觉上下文和场景中学习常识推理的研究,这是迈向高级人工智能的关键一步。SOK-Bench 包含 44K 个问题和 10K 个场景,每个场景都有实例级别的注释。该数据集要求模型理解和应用情境知识和通用知识来解决问题。为了创建这样一个数据集,研究人员提出了一种自动和可扩展的生成方法,通过指令 LLM 和 MLLM 的组合来生成问答对、知识图谱和推理过程。
当前挑战
SOK-Bench 数据集面临的挑战包括:1) 模型在动态、开放世界和结构化情境下的常识推理能力仍然有限;2) 构建过程中需要解决如何有效地提取视频中的情境实体、关系和过程,并将其与通用知识相结合的问题;3) 如何自动生成高质量的问答对,并确保其与知识图谱和推理过程之间的一致性;4) 如何评估模型在解决现实世界问题时的推理能力,并找到模型在推理过程中存在的不足之处。
常用场景
经典使用场景
SOK-Bench 数据集主要用于评估视觉语言模型在动态、开放世界和结构化上下文中进行情境和开放世界常识推理的能力。该数据集包含 44K 个问答对和 10K 个视频片段,涵盖了 12 种问题类型。模型需要利用情境中的事实和必要的常识或背景知识来产生适当的推理。
实际应用
SOK-Bench 数据集在实际应用中可用于开发更高级的人工智能系统,这些系统能够在动态、现实世界的上下文中进行情境和开放世界常识推理。该数据集可用于训练视觉语言模型,使其能够更好地理解和解释视频内容,并从情境和开放世界知识中进行推理。这可以应用于各种领域,例如视频问答、视频内容理解、人机交互等。
衍生相关工作
SOK-Bench 数据集的提出推动了视觉语言模型在常识推理方面的研究。基于该数据集,研究人员可以开发新的模型和方法来提高视觉语言模型在理解视频中的情境和推理开放域知识方面的能力。此外,SOK-Bench 数据集还可以用于评估其他视觉语言模型在常识推理方面的性能,并为这些模型的改进提供参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

China License Plate Dataset

该数据集包含从互联网搜索、手机拍摄或车载记录仪捕获的多种真实场景下的车牌图像。数据集涵盖了不同拍摄角度、时间、分辨率和背景条件,包括多种车辆类型如卡车、轿车、警车和新能源车辆。新能源车辆车牌有八个字母,其他车辆车牌有七个字母,允许部分遮挡的车牌。所有图像均手动标注了边界框和车牌字母。数据集包含来自中国大陆31个省份的1200张车牌图像。

github 收录

Weld detection

该数据集专注于焊接缺陷的识别与分类,具有重要的应用价值,尤其是在工业生产和质量控制中。数据集的设计旨在涵盖焊接过程中可能出现的各种缺陷,以确保模型在实际应用中的鲁棒性和可靠性。数据集的类别数量为1,具体类别为weld。

github 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录