HourVideo|视频理解数据集|多模态模型数据集
收藏HourVideo: 1-Hour Video-Language Understanding
概述
HourVideo 是一个用于长时间视频语言理解的数据集,包含 500 个从 Ego4D 数据集中手动筛选的以自我为中心的视频,时长从 20 分钟到 120 分钟不等。数据集包含 12,976 个高质量的五选一多选题,涵盖总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、物体检索)任务。
数据集组成
- 视频数量: 500 个
- 视频时长: 20 分钟到 120 分钟
- 问题数量: 12,976 个五选一多选题
任务类型
- 总结
- 感知
- 回忆
- 跟踪
- 视觉推理
- 空间
- 时间
- 预测
- 因果
- 反事实
- 导航
- 房间到房间
- 物体检索
基准结果
- GPT-4: 平均得分 19.6%
- LLaVA-34B-DPO: 平均得分 22.3%
- Gemini 1.5 Pro: 平均得分 37.3%
数据集下载
- 开发集: 包含 50 个视频,1182 个多选题,时长 39.3 小时。下载地址:HourVideo 开发集
联系信息
- Keshigeyan Chandrasegaran: keshik@stanford.edu
- Agrim Gupta: agrim@stanford.edu
- Lea M. Hadzic: lea27@stanford.edu
- Manling Li: manlingl@stanford.edu
引用
bibtex @inproceedings{chandrasegaran2024hourvideo, title={HourVideo: 1-Hour Video-Language Understanding}, author={Chandrasegaran, Keshigeyan and Gupta, Agrim and Hadzic, Lea M. and Kota, Taran and He, Jimming and Eyzaguirre, Cristobal and Durante, Zane and Li, Manling and Wu, Jiajun and Li, Fei-Fei}, booktitle = {Advances in Neural Information Processing Systems}, year={2024}, volume = {37}, }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录
用于陆面模拟的中国土壤数据集(第二版)
本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。
国家青藏高原科学数据中心 收录