RawDataset
收藏github2024-04-07 更新2024-05-31 收录
下载链接:
https://github.com/Creammmmm/RawDataset
下载链接
链接失效反馈官方服务:
资源简介:
RawDataset由Xidian大学的Creammmmm收集和标注,包含5000张原始数据图像,分为5个类别,每个类别1000张图像。数据集包括4000张训练图像和1000张测试图像,使用Sony α6000设备拍摄,图像存储格式为ARW和JPG。数据集中的图像经过筛选和调整,以适应不同的分析和研究需求。
The RawDataset, collected and annotated by Creammmmm from Xidian University, comprises 5,000 raw data images categorized into five classes, with 1,000 images per class. The dataset includes 4,000 training images and 1,000 test images, captured using a Sony α6000 camera, with images stored in ARW and JPG formats. The images in the dataset have been filtered and adjusted to suit various analytical and research needs.
创建时间:
2019-04-15
原始信息汇总
数据集概述
数据集基本信息
- 名称: RawDataset
- 收集者: Creammmmm of Xidian University
- 包含内容: 5000张原始数据图像,分为5个类别,每个类别1000张图像。其中4000张用于训练,1000张用于测试。
- 拍摄设备: Sony α6000
- 图像格式: ARW & JPG
数据集结构
图像版本
- 结构: train & test ==> classes ==> images
- 图像格式: .tiff,16位深度
Numpy矩阵版本
- 文件: 共四个.npy文件
- x_train: 训练数据的四维矩阵
- y_train: x_train的标签
- x_test: 测试数据的四维矩阵
- y_test: x_test的标签
下载信息
- 联系方式: 使用数据集前需通过电子邮件dhgao@xidian.edu.cn联系数据集收集者
- 下载链接: 提供Baidu Netdisk和Google Drive两种下载方式,包含多种下采样版本
版权信息
- 版权归属: OIBP(Optoelectronic Imaging and Brain-Inspired Perception Laborotary), Institute of Artificial Intelligence, Xidian University
搜集汇总
数据集介绍

构建方式
RawDataset由西安电子科技大学的Creammmmm团队收集并标注,包含5000张原始图像,分为5个类别,每个类别1000张图像。数据集使用Sony α6000相机拍摄,图像以ARW和JPG两种格式同时存储。训练集和测试集分别包含4000张和1000张图像,并按类别分类。由于部分图像包含多个类别,团队对图像进行了筛选,以确保数据的纯净性。此外,原始图像尺寸为6000x4000像素,为便于存储和传输,数据集提供了多种下采样版本。
特点
RawDataset的特点在于其多样化的图像格式和下采样方法。数据集不仅包含原始的ARW和JPG格式图像,还提供了多种下采样版本,包括JPG格式的224x224像素图像、单通道的RAW马赛克图像以及四通道的RAW-RGBG矩阵。这些下采样方法保留了原始图像的结构信息,同时显著减少了数据存储和处理的负担。此外,数据集中的图像类别清晰,尽管部分图像存在类别重叠,但经过筛选后,数据质量得到了显著提升。
使用方法
使用RawDataset时,用户可以通过百度网盘或Google Drive下载不同版本的数据集。数据集提供了图像版本和Numpy矩阵版本两种格式。图像版本按训练集和测试集分类,每个类别单独存储为TIFF格式的16位深度图像。Numpy矩阵版本则包含四个文件,分别存储训练数据和测试数据的四维矩阵及其对应的标签。用户可以根据需求选择合适的版本进行下载,并通过邮件联系数据集提供者获取更多信息。
背景与挑战
背景概述
RawDataset是由西安电子科技大学光电成像与脑启发感知实验室(OIBP)的Creammmmm团队收集和标注的图像数据集。该数据集包含5000张原始图像,分为5个类别,每个类别包含1000张图像,其中4000张用于训练,1000张用于测试。图像采集设备为索尼α6000相机,同时以ARW和JPG格式存储。该数据集的构建旨在为图像分类和计算机视觉任务提供高质量的原始图像资源,尤其是在处理RAW格式图像时,能够为研究者提供独特的实验数据。该数据集的出现填补了相关领域在RAW格式图像处理方面的空白,并为图像分类算法的优化与创新提供了重要支持。
当前挑战
RawDataset在构建和应用过程中面临多重挑战。首先,RAW格式图像由于其高动态范围和复杂的色彩信息,直接处理和分析较为困难,需经过格式转换和亮度调整才能用于常规视觉任务。其次,部分图像存在类别重叠问题,尤其是窗户和招牌类别的图像,由于拍摄距离过近,难以完全分离,尽管经过筛选,仍存在少量图像包含其他类别信息。此外,原始图像尺寸较大(6000×4000像素),存储和传输成本较高,需通过下采样处理以降低数据量,但下采样过程中可能丢失部分细节信息,影响模型的训练效果。这些挑战要求研究者在数据处理和算法设计时进行精细的权衡与优化。
常用场景
经典使用场景
RawDataset在计算机视觉领域中被广泛用于图像分类和图像处理算法的开发与测试。该数据集包含了5000张原始图像,分为5个类别,每个类别1000张图像,其中4000张用于训练,1000张用于测试。由于其高分辨率和多样化的图像内容,该数据集特别适合用于深度学习模型的训练,尤其是在处理高分辨率图像时,能够有效评估模型在复杂场景下的表现。
解决学术问题
RawDataset解决了在图像分类任务中,由于图像分辨率高、类别间差异大而导致的模型训练困难问题。通过提供高质量的原始图像数据,研究人员可以更准确地评估和改进图像分类算法的性能。此外,该数据集还支持对图像处理算法的研究,尤其是在图像降采样和格式转换方面,为相关领域的研究提供了宝贵的数据支持。
衍生相关工作
基于RawDataset,研究人员已经开发了多种经典的图像分类和图像处理算法。例如,一些研究利用该数据集的高分辨率图像,提出了新的深度学习模型,显著提高了图像分类的准确率。此外,还有一些研究专注于图像降采样和格式转换,提出了更高效的图像处理算法,这些算法在实际应用中表现出了优异的性能。这些相关工作不仅推动了计算机视觉领域的发展,也为其他相关领域的研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



