bigai-nlco/VideoHallucer|视频问答数据集|幻觉检测数据集

hugging_face2025-04-01 更新2024-06-29 收录

视频问答

幻觉检测

下载链接：

https://hf-mirror.com/datasets/bigai-nlco/VideoHallucer

下载链接

链接失效反馈

资源简介：

VideoHallucer是第一个用于大型视频-语言模型（LVLMs）幻觉检测的综合基准。该数据集将幻觉分为内在和外在两类，并进一步细分为对象关系、时间、语义细节、外在事实和外在非事实幻觉。数据集采用了对抗性二元视频问答方法进行评估，其中包含基本问题和幻觉问题的配对。数据统计显示，每种类型的幻觉问题有400个，对应的视频数量分别为183、165、400、200和200个。

VideoHallucer is the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). The dataset categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. The dataset adopts an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. Data statistics show that there are 400 questions for each type of hallucination, with corresponding video counts of 183, 165, 400, 200, and 200 respectively.

提供机构：

bigai-nlco

原始信息汇总

VideoHallucer 数据集概述

数据集描述

任务类别: 问答 (question-answering)
语言: 英语 (en)
数据规模: 1K<n<10K
许可证: MIT

数据统计

幻觉类型	对象关系幻觉	时间幻觉	语义细节幻觉	外部事实幻觉	外部非事实幻觉
问题数量	400	400	400	400	400
视频数量	183	165	400	200	200

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录