five

OW-JRD (Object-wise Just Recognizable Distortion) dataset

收藏
github2025-04-11 更新2025-04-29 收录
下载链接:
https://github.com/SYSU-Video/Learning-to-Predict-Object-Wise-Just-Recognizable-Distortion-for-Image-and-Video-Compression
下载链接
链接失效反馈
官方服务:
资源简介:
OW-JRD数据集包含29,218张原始图像,涵盖80个对象类别,每张图像使用Versatile Video Coding (VVC)压缩成64个失真版本。该数据集用于研究图像和视频压缩中的最小可识别失真(JRD)问题。

The OW-JRD dataset consists of 29,218 raw images spanning 80 object categories. Each raw image is compressed into 64 distorted versions using Versatile Video Coding (VVC). This dataset is utilized for investigating the Just Noticeable Distortion (JRD) problem in image and video compression.
创建时间:
2025-04-11
原始信息汇总

数据集概述

基本信息

数据集内容

  • 数据量: 29,218张原始图像
  • 对象类别: 80类
  • 数据格式:
    • 原始图像
    • 使用VVC(Versatile Video Coding)压缩的64种失真版本
  • 标注信息:
    • objects_infos.json
    • coco80_indices.json
    • JRD_info.json
    • train.json
    • val.json
    • test.json

数据集结构

Project ├── jsonfiles/ │ ├── objects_infos.json │ ├── coco80_indices.json │ ├── JRD_info.json │ ├── train.json │ ├── val.json │ └── test.json ├── data/ │ ├── original/ │ └── distorted/

下载链接

技术指标

  • 预测性能:
    • Mean Absolute Errors (MAEs) 为4.90和5.92(不同类别数量下)
  • 基准对比: 显著优于现有最先进的JRD预测模型

相关资源

  • 预训练模型:
    • ./pre_weights/pre_efficientnetv2-s.pth
    • ./pre_weights/Eff/Eff.pth
  • 代码库: GitHub代码库

引用格式

bibtex @ARTICLE{zhang2023learning, author={Zhang, Yun and Lin, Haoqin and Sun, Jing and Zhu, Linwei and Kwong, Sam}, journal={IEEE Transactions on Multimedia}, title={Learning to Predict Object-Wise Just Recognizable Distortion for Image and Video Compression}, year={2024}, volume={26}, number={}, pages={5925-5938}, keywords={Image coding;Machine vision;Distortion;Visualization;Predictive models;Image recognition;Task analysis;Deep learning;just recognizable distortion;object detection;video coding for machine}, doi={10.1109/TMM.2023.3340882}}

搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体处理与机器视觉交叉领域,OW-JRD数据集的构建采用了严谨的科学方法。研究团队基于COCO测试集的80类物体检测数据,精选29,218张原始图像作为基础素材,通过Versatile Video Coding (VVC)编码器为每幅图像生成64种不同压缩程度的失真版本。这种多层级压缩策略精确模拟了从无损到严重失真的连续变化过程,同时采用标准化标注流程确保每幅失真图像与原始图像在物体可识别性上的对应关系,为后续JRD阈值研究奠定了数据基础。
特点
该数据集的核心价值体现在其独特的对象级可识别失真标注体系。不同于传统图像质量评估数据集,OW-JRD创新性地将机器视觉系统的识别性能作为失真度量标准,构建了包含80类常见物体的多层次压缩样本库。数据集特别设计了跨压缩等级的配对样本结构,每个对象实例都关联着从可识别到不可识别的临界失真阈值,这种细粒度的标注方式为研究压缩算法对机器视觉任务的影响提供了精准的量化依据。
使用方法
研究者可通过官方提供的Python工具链高效利用该数据集。使用流程包含模型训练与预测两个阶段:训练时调用train.py脚本加载EfficientNet预训练权重,通过指定批次大小和学习率等参数优化二元分类器;预测阶段则运行PredictJRD.py加载训练好的模型权重,自动输出目标图像的对象级JRD预测值。数据集目录采用标准化结构组织原始图像、失真版本及JSON标注文件,支持直接对接主流深度学习框架进行端到端的模型开发与验证。
背景与挑战
背景概述
OW-JRD(Object-wise Just Recognizable Distortion)数据集由中山大学视频编码研究团队于2023年构建,并发表于IEEE Transactions on Multimedia期刊。该数据集旨在解决机器视觉任务中图像与视频压缩的关键问题——可识别失真阈值(JRD)的预测。研究团队基于COCO测试集的80类物体标注,通过Versatile Video Coding(VVC)算法生成了29,218张原始图像及其64种压缩版本,构建了首个面向物体级JRD预测的大规模基准数据集。其核心科学价值在于为视频机器编码(VCM)提供了量化标准,通过平衡压缩率与机器识别性能的权衡,推动了智能压缩算法的发展。
当前挑战
OW-JRD数据集面临双重挑战。在领域问题层面,可识别失真阈值的界定需兼顾物体类别多样性(如小目标与大目标的敏感度差异)与机器视觉模型的鲁棒性,而现有压缩算法难以统一量化不同语义内容的失真容忍度。在构建过程中,研究团队需克服大规模数据标注的一致性难题,包括人工验证64种压缩等级下每类物体的可识别性边界,以及处理VVC编码引入的复杂失真模式(如块效应与纹理模糊)对标注可靠性的干扰。此外,跨模态特征的融合——即压缩失真特征与物体语义特征的关联建模,亦成为算法设计的关键瓶颈。
常用场景
经典使用场景
在多媒体压缩领域,OW-JRD数据集为研究图像和视频压缩中的可识别失真阈值提供了重要基准。该数据集通过将29,218张原始图像压缩为64种不同失真版本,覆盖80种物体类别,为机器学习模型提供了丰富的训练和测试素材。其经典使用场景包括训练深度学习模型预测不同压缩级别下物体是否仍可被检测到,从而优化视频编码算法。
解决学术问题
OW-JRD数据集有效解决了机器视觉中可识别失真阈值的量化难题。传统方法难以准确衡量压缩对物体识别性能的影响,而该数据集通过大规模实验数据,建立了失真水平与识别性能的对应关系。其提出的二元分类框架和误差容忍策略,显著提升了JRD预测的准确性,MAE指标优于现有方法,为VCM(Video Coding for Machine)领域提供了可靠的理论基础。
衍生相关工作
围绕OW-JRD数据集已衍生出多项创新研究。部分工作聚焦于扩展其多模态应用,如结合语义分割任务优化JRD预测;另有研究改进网络架构,采用EfficientNetV2等轻量模型提升实时性。数据集构建方法论也被借鉴至音频领域,用于语音识别系统的压缩鲁棒性研究。这些进展持续推动着机器视觉与压缩技术的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作