DVD|视频理解数据集|对话系统数据集
收藏DVD数据集概述
数据集简介
DVD(Diagnostic Dataset for Video-grounded Dialogues)是一个用于视频基础对话中多步骤推理的诊断数据集。该数据集旨在减少模型可以利用的偏差,并通过详细的注释来分析对话系统在视频时空空间上的不同推理类型。
数据集构成
DVD数据集包含11,000个CATER合成视频,每个视频有10个10轮对话实例,总计超过100,000个对话和100万个问答对。
数据集统计
分割 | 视频数量 | 对话数量 | 问题数量 | 唯一问题数量 |
---|---|---|---|---|
DVD-Train | 6,157 | 61,551 | 615,510 | 360,334 |
DVD-Val | 1,540 | 15,396 | 153,960 | 99,211 |
DVD-Test | 3,299 | 32,978 | 329,780 | 200,346 |
DVD-Total | 10,996 | 109,925 | 1,099,250 | 620,739 |
数据集结构
数据集包括两个主要部分:
dvd_dialogues
:包含训练、验证和测试分割的所有对话。dvd_resnext101
:包含所有CATER视频的提取ResNext101特征。
数据集下载
数据集可从这里下载。
数据集使用
数据集的使用包括以下步骤:
- 预处理CATER视频。
- 生成对话和注释。
- 加载和批处理数据集。
数据探索
提供了一个笔记本用于展示如何从DVD对话中提取不同的注释。

- DVD技术首次由东芝和索尼公司联合推出,标志着数字视频光盘技术的诞生。
- DVD播放器开始在全球范围内商业化销售,迅速成为家庭娱乐的主流设备。
- DVD-ROM驱动器开始集成到个人电脑中,使得DVD成为存储和播放多媒体内容的重要媒介。
- DVD刻录技术成熟,用户可以自行刻录DVD光盘,进一步扩展了DVD的应用领域。
- 蓝光光盘技术推出,标志着新一代高清视频存储技术的兴起,逐渐取代了部分DVD市场。
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录