five

bigai-nlco/VideoHallucer|视频问答数据集|幻觉检测数据集

收藏
hugging_face2025-04-01 更新2024-06-29 收录
视频问答
幻觉检测
下载链接:
https://hf-mirror.com/datasets/bigai-nlco/VideoHallucer
下载链接
链接失效反馈
资源简介:
VideoHallucer是第一个用于大型视频-语言模型(LVLMs)幻觉检测的综合基准。该数据集将幻觉分为内在和外在两类,并进一步细分为对象关系、时间、语义细节、外在事实和外在非事实幻觉。数据集采用了对抗性二元视频问答方法进行评估,其中包含基本问题和幻觉问题的配对。数据统计显示,每种类型的幻觉问题有400个,对应的视频数量分别为183、165、400、200和200个。

VideoHallucer is the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). The dataset categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. The dataset adopts an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. Data statistics show that there are 400 questions for each type of hallucination, with corresponding video counts of 183, 165, 400, 200, and 200 respectively.
提供机构:
bigai-nlco
原始信息汇总

VideoHallucer 数据集概述

数据集描述

  • 任务类别: 问答 (question-answering)
  • 语言: 英语 (en)
  • 数据规模: 1K<n<10K
  • 许可证: MIT

数据统计

幻觉类型 对象关系幻觉 时间幻觉 语义细节幻觉 外部事实幻觉 外部非事实幻觉
问题数量 400 400 400 400 400
视频数量 183 165 400 200 200
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录