five

Singapore Maritime Dataset|海事监控数据集|数据处理数据集

收藏
github2020-05-24 更新2024-05-31 收录
海事监控
数据处理
下载链接:
https://github.com/choodly/Singapore-Maritime-Dataset-Frames-Ground-Truth-Generation-and-Statistics
下载链接
链接失效反馈
资源简介:
新加坡海事数据集是一个用于生成视频帧和转换相应地面实况文件的数据集。该数据集可以从提供的链接下载,用于生成统计信息和处理数据。

The Singapore Maritime Dataset is a collection designed for generating video frames and transforming corresponding ground truth files. This dataset is available for download via the provided link and is intended for generating statistical information and processing data.
创建时间:
2020-05-20
原始信息汇总

数据集概述

数据集名称

  • 新加坡海事数据集 (Singapore Maritime Dataset, SMD)

数据集获取

  • 数据集需从此链接下载并解压至项目主目录。

数据处理脚本

  • convert_mat_to_csv_LEGACY.py:用于生成数据统计所需的CSV文件。
  • load_mat_into_csv_xml.py:将SMD的.mat对象地面实况文件转换为CSV和VOC XML格式。
  • generate_tfrecord.py:从load_mat_into_csv_xml.py生成的CSV文件生成tfrecord。

Jupyter笔记本

  • Singapore_dataset_frames_generation_and_histograms.ipynb:从SMD视频生成帧,可选择生成所有帧或每N帧,并按70%/30%比例分割为训练/测试集。
  • Singapore_dataset_frames_generation_2nd_dataset.ipynb:类似前述笔记本,可选择将某些视频完全保留给测试集。
  • Singapore_maritime_dataset_statistics_all_frames.ipynb:生成全数据集的统计信息。
  • Singapore_maritime_dataset_statistics_split_first_dataset.ipynb:生成第一数据集分割后的统计信息。
  • Singapore_maritime_dataset_statistics_split_second_dataset.ipynb:生成第二数据集分割后的统计信息。

文件说明

  • objects_nir.txt:包含近红外数据集所有对象数据的CSV文件。
  • objects_onshore.txt:包含岸上数据集所有对象数据的CSV文件。
  • objects_onboard.txt:包含船上数据集所有对象数据的CSV文件。

文件夹说明

  • figures:包含使用全数据集生成的所有图表。
  • figures_split:包含使用第一数据集分割生成的所有图表。

统计示例

  • 对象面积与图像总面积的比率直方图
  • 对象类型、运动和距离的频率分布
  • 对象类型和视频源的距离分布
  • 对象类型和视频源的运动分布
  • 视频中对象类型计数
  • 视频中对象类型计数(归一化)
  • 数据集中所有对象的热图

引用信息

  • 使用新加坡海事数据集时,应引用相关论文。
  • 使用本仓库的代码或图表时,应引用此仓库。
AI搜集汇总
数据集介绍
main_image_url
构建方式
新加坡海事数据集(Singapore Maritime Dataset, SMD)的构建过程主要涉及从视频中提取帧,并生成相应的地面实况文件。首先,通过Jupyter笔记本从SMD视频中生成帧,可以选择生成所有帧或每隔N帧,并将其划分为训练集和测试集,默认比例为70%/30%。随后,使用Python脚本将.mat格式的地面实况文件转换为CSV和VOC XML格式,以便进一步处理。此外,还生成了tfrecord文件,以便与TensorFlow兼容。最后,通过统计笔记本生成了数据集的基本统计信息,包括对象的面积比例、类型频率、运动和距离等。
特点
新加坡海事数据集具有多方面的特点。首先,数据集包含了从不同视角和环境(如近红外、岸上和船上)捕获的视频帧,提供了多样化的场景和对象。其次,数据集的地面实况文件以.mat格式提供,经过处理后可转换为CSV和VOC XML格式,便于多种机器学习框架的使用。此外,数据集还提供了详细的统计信息,如对象的面积比例、类型频率、运动和距离等,这些信息有助于深入分析和模型训练。
使用方法
使用新加坡海事数据集时,首先需要从指定链接下载数据集并解压缩到项目目录中。随后,可以通过提供的Python脚本和Jupyter笔记本进行数据处理和分析。具体步骤包括:使用Jupyter笔记本生成视频帧并划分训练集和测试集;使用Python脚本将.mat格式的地面实况文件转换为CSV和VOC XML格式;生成tfrecord文件以便与TensorFlow兼容;最后,通过统计笔记本生成数据集的统计信息。此外,数据集还提供了预生成的CSV文件和统计图表,便于直接使用和分析。
背景与挑战
背景概述
新加坡海事数据集(Singapore Maritime Dataset, SMD)是由D. K. Prasad等人于2017年创建的,旨在支持海事环境中的目标检测与跟踪研究。该数据集通过电光传感器采集的视频数据,提供了丰富的海事场景信息,涵盖了多种目标类型、运动状态及距离等关键属性。SMD的发布为海事智能交通系统的发展提供了重要的数据支持,尤其是在复杂的海事环境中进行目标识别与跟踪的挑战性任务中,具有显著的研究价值。
当前挑战
SMD在构建过程中面临了多重挑战。首先,海事环境中的目标检测与跟踪任务复杂,涉及多种目标类型、运动状态及距离变化,这些因素增加了数据处理的难度。其次,数据集的构建需要从视频中提取帧并生成相应的地面真实数据,这一过程涉及大量的数据转换与格式兼容性问题。此外,数据集的统计分析需要处理大规模数据,确保生成的统计结果准确反映数据集的特性。这些挑战不仅影响了数据集的构建效率,也对后续的研究工作提出了更高的技术要求。
常用场景
经典使用场景
新加坡海事数据集(Singapore Maritime Dataset, SMD)在海事环境中的目标检测与跟踪任务中展现了其经典应用价值。该数据集通过从视频中提取帧并生成相应的地面实况文件,为研究人员提供了丰富的视觉数据和标注信息。其主要应用场景包括船舶识别、海上目标跟踪、以及海事场景中的物体分类等。通过将数据集转换为CSV和VOC XML格式,研究人员可以方便地将其用于深度学习模型的训练与评估,尤其是在TensorFlow框架下,数据集的兼容性得到了进一步提升。
实际应用
新加坡海事数据集在实际应用中展现了广泛的潜力,尤其是在海事监控、船舶识别和海上交通管理等领域。通过利用该数据集训练的模型,可以实现对海上目标的实时检测与跟踪,从而提高海上交通的安全性和效率。此外,数据集的统计分析结果为海事管理部门提供了宝贵的决策支持,例如通过分析物体类型和运动模式,优化海上巡逻路线和资源分配。在智能航运和无人船技术的发展中,该数据集也为相关技术的验证和测试提供了重要基础。
衍生相关工作
新加坡海事数据集的发布催生了一系列相关研究工作,尤其是在海事目标检测与跟踪领域。基于该数据集,研究者们开发了多种深度学习模型,用于提升海上目标的识别精度和实时性。此外,数据集的统计分析方法也被广泛应用于其他海事数据集的评估与优化中。例如,一些研究通过对比不同数据集的物体分布和运动模式,提出了更加通用的目标检测算法。同时,该数据集也为海事场景中的多模态数据融合研究提供了基础,推动了红外与可见光数据的联合分析技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录