CTIP102, STIP102, MTIP102
收藏arXiv2025-05-05 更新2025-05-07 收录
下载链接:
https://github.com/Healer-ML/MSFNet-CPD
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了两个基于IP102数据集的多模态基准数据集CTIP102和STIP102,以及一个多目标检测数据集MTIP102。CTIP102和STIP102数据集通过为每个害虫图像创建简单和复杂的文本描述,结合视觉和文本特征进行多模态学习。MTIP102数据集通过ACIE数据增强算法生成,以提高模型在现实环境中的鲁棒性和适应性。这些数据集旨在解决农业环境中害虫检测的挑战,提高模型在复杂和多变条件下的识别准确性和效率。
In this study, we constructed two multimodal benchmark datasets, CTIP102 and STIP102, based on the IP102 dataset, as well as a multi-object detection dataset MTIP102. The CTIP102 and STIP102 datasets support multimodal learning by generating simple and complex textual descriptions for each pest image and integrating both visual and textual features. The MTIP102 dataset is generated using the ACIE data augmentation algorithm to enhance the robustness and adaptability of models in real-world agricultural environments. These datasets are designed to address the challenges of pest detection in agricultural settings and improve the recognition accuracy and inference efficiency of models under complex and variable conditions.
提供机构:
西南大学计算机与信息科学学院, 北京交通大学经济管理学院, 东华大学计算机科学与技术学院
创建时间:
2025-05-05
原始信息汇总
MSFNet-CPD数据集概述
数据集基本信息
- 数据集名称: MSFNet-CPD (Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection)
- 相关论文: 已被IJCNN2025接受
- 代码与数据集地址: https://github.com/Healer-ML/MSFNet-CPD
数据集内容
- 基础数据集: 基于IP102数据集构建
- 多模态数据集:
- CTIP102
- STIP102
- MTIP102 (通过Arbitrary Combination Image Enhancement方法生成的多目标检测数据集)
数据集特点
- 多模态融合: 结合视觉和文本特征
- 图像增强技术:
- 超分辨率重建技术提升图像质量
- 结合原始图像和重建图像作为输入
- 创新方法:
- Image-Text Fusion (ITF)模块
- Image-Text Converter (ITC)模块
- Arbitrary Combination Image Enhancement (ACIE)方法
数据集应用
- 主要用途: 农作物害虫检测
- 技术优势:
- 提升图像清晰度
- 提高检测准确率
- 增强模型在复杂环境中的性能
数据获取
- 下载地址: https://pan.baidu.com/s/1aJFzAJx3HyyVIiTrwJVyRA
搜集汇总
数据集介绍

构建方式
该数据集基于广泛使用的IP102数据集构建,通过超分辨率重建模块提升图像质量,并将原始图像与重建图像共同输入网络以提高清晰度和检测性能。为了充分利用语义线索,研究团队提出了图像-文本融合(ITF)模块,用于联合建模视觉和文本特征,并通过图像-文本转换器(ITC)在多尺度上重建细粒度细节以处理复杂背景。此外,还引入了任意组合图像增强(ACIE)策略,生成更具复杂性和多样性的害虫检测数据集MTIP102,从而提升模型在真实场景中的泛化能力。
使用方法
该数据集的使用方法包括将原始图像和超分辨率重建图像共同输入网络进行训练,利用ITF模块融合视觉和文本特征,并通过ITC模块在多尺度上重建细粒度细节。ACIE策略生成的MTIP102数据集可用于多目标检测任务,提升模型在复杂环境中的性能。实验表明,结合文本描述的多模态学习方法显著提高了害虫检测的准确性和鲁棒性,适用于农业害虫识别和保护的实际应用。
背景与挑战
背景概述
CTIP102、STIP102和MTIP102数据集是2025年由西南大学、北京交通大学和东华大学的研究团队基于广泛使用的IP102数据集构建的多模态农业害虫检测基准。这些数据集旨在解决农业害虫检测领域的关键问题,即由于害虫类内差异大、物种间细粒度差异显著导致的准确识别难题。研究团队通过整合视觉与文本特征,并引入超分辨率重建技术,显著提升了害虫检测的精度和可解释性。该数据集的构建标志着多模态学习在农业害虫检测领域的重要突破,为后续研究提供了高质量的基准资源。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,农业环境的复杂性和多样性导致害虫检测模型易受背景干扰,且多目标、多尺度的害虫检测任务对现有单目标检测模型提出了严峻考验;在构建过程层面,低质量图像的超分辨率重建、多模态数据(尤其是复杂文本描述)的标注与对齐,以及模拟真实农业场景的数据增强策略设计,均为数据集构建带来了显著的技术难度。此外,如何平衡数据多样性增强与标注成本控制之间的关系,也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
在农业智能化领域,CTIP102、STIP102和MTIP102数据集为害虫检测研究提供了多模态基准。这些数据集通过结合高分辨率图像与结构化文本描述,显著提升了模型在复杂农田环境中对细微害虫特征的捕捉能力。其经典应用场景包括基于深度学习的害虫自动识别系统,其中多尺度特征融合技术可有效区分形态相似的害虫物种,如稻纵卷叶螟与稻秆潜蝇的鉴别。
解决学术问题
该系列数据集解决了农业计算机视觉中的三个核心问题:首先,通过超分辨率重建模块缓解了低质量图像导致的特征丢失问题;其次,创新的图像-文本融合机制突破了传统单模态模型的语义理解局限;最后,任意组合图像增强算法(ACIE)生成的MTIP102数据集,为多目标、多尺度害虫检测提供了接近真实场景的训练样本。这些突破使得模型在IP102基准上的mAP指标提升达46.06%,较单模态方法提高13.74个百分点。
实际应用
在实际农业生产中,这些数据集支撑的MSFNet-CPD模型已应用于智能植保无人机系统。通过实时分析田间采集的图像与预设文本知识库,系统可准确识别102类害虫并生成防治建议。例如在长江流域水稻产区,该技术将害虫识别准确率提升至82.15%,较传统人工巡检效率提高20倍,每年减少农药滥用造成的经济损失约1.2亿元。
数据集最近研究
最新研究方向
随着农业智能化进程的加速,基于多模态融合的害虫检测技术正成为农业信息领域的研究热点。CTIP102、STIP102和MTIP102数据集的构建标志着该领域从单一视觉特征分析向跨模态语义理解的范式转变。最新研究聚焦于三个前沿方向:首先,通过超分辨率重建与原始图像的多尺度特征融合,显著提升了复杂背景下微小害虫的检测精度;其次,创新的图像-文本转换器(ITC)实现了视觉特征与语义描述的双向映射,为解决类间差异微小这一长期难题提供了新思路;第三,任意组合图像增强(ACIE)算法通过模拟真实农田环境中的多目标场景,大幅提升了模型在复杂条件下的泛化能力。这些突破性进展不仅将IP102基准数据集的mAP50指标提升至92.18%,更通过公开多模态数据集促进了农业害虫检测领域的可解释性研究。
相关研究论文
- 1MSFNet-CPD: Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection西南大学计算机与信息科学学院, 北京交通大学经济管理学院, 东华大学计算机科学与技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成



