VisText-Mosquito

Name: VisText-Mosquito
Creator: 联合国际大学（孟加拉国）, 朴次茅斯大学（英国）, BRAC大学（孟加拉国）
Published: 2025-06-17 23:24:30
License: 暂无描述

arXiv2025-06-17 更新2025-06-22 收录

下载链接：

https://github.com/adnanul-islam-jisun/VisText-Mosquito

下载链接

链接失效反馈

官方服务：

资源简介：

VisText-Mosquito 是一个多模态数据集，旨在支持基于人工智能的蚊子繁殖地检测和推理。该数据集包含1,828个标注的图像用于目标检测、142个图像用于水面分割，以及与每个图像相关联的自然语言推理文本。该数据集通过整合视觉和文本数据，支持自动化的检测、分割和推理，以分析蚊子繁殖地。数据集和模型框架强调“预防胜于治疗”的主题，展示了如何通过基于人工智能的检测主动解决蚊子传播疾病的风险。数据集和实现代码已在GitHub上公开。

VisText-Mosquito is a multimodal dataset developed to support AI-based mosquito breeding site detection and reasoning. This dataset includes 1,828 annotated images for object detection, 142 images for water surface segmentation, and natural language inference texts associated with each image. By integrating visual and textual data, it enables automated detection, segmentation and reasoning workflows for mosquito breeding site analysis. The dataset and its supporting model framework emphasize the core theme of "prevention is better than cure", demonstrating how AI-powered detection can proactively address the risk of mosquito-borne diseases. The dataset and its implementation code have been made publicly available on GitHub.

提供机构：

联合国际大学（孟加拉国）, 朴次茅斯大学（英国）, BRAC大学（孟加拉国）

创建时间：

2025-06-17

原始信息汇总

VisText-Mosquito 数据集概述

数据集简介

VisText-Mosquito 是一个多模态数据集，旨在支持蚊子繁殖地检测、水面分割和自然语言推理生成，用于可解释的人工智能应用。数据集包含三个核心组件：

繁殖地检测：包含1,828张图像和3,752个标注，涵盖五个类别（椰子外果皮、花瓶、轮胎、排水口入口和瓶子）。
水面分割：包含142张图像和253个标注，涵盖两个类别（带水的花瓶和带水的轮胎）。
文本推理生成：每张图像关联一个自然语言推理语句，解释是否存在繁殖风险。

数据收集与验证

数据来源：图像采集自孟加拉国多样化的城市、半城市和农村环境，确保视觉一致性。
检测验证：使用YOLOv5s、YOLOv8n和YOLOv9s模型验证，其中YOLOv9s表现最佳（最高mAP@50）。
分割验证：使用YOLOv8x-Seg和YOLOv11n-Seg模型验证水面分割性能。
推理生成：使用微调的BLIP模型生成推理语句，在BLEU、BERTScore和ROUGE-L指标上表现良好。

数据集访问

下载地址：https://data.mendeley.com/datasets/rtsfh7jh7p/2

代码与模型权重

检测模型训练代码：yolov5s_yolov8n_yolov9s_1.ipynb
分割模型训练代码：Yolov8x-seg.ipynb
模型权重：
- 检测模型：YOLOv5s、YOLOv8n、YOLOv9s
- 分割模型：YOLOv8x-Seg（权重下载地址：https://drive.google.com/drive/folders/1vjX6ZJbT87Xto4hQ7_dcueQjF9C5DjkI?usp=sharing）

许可与引用

许可证：请查看数据集附带的LICENSE文件。
引用格式： bibtex @article{islam2025vistext, title={VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning}, author={Islam, Md Adnanul and Sayeedi, Md Faiyaz Abdullah and Shuvo, Md Asaduzzaman and Rahman, Muhammad Ziaur and Bappy, Shahanur Rahman and Rahman, Raiyan and Shatabda, Swakkhar}, journal={arXiv preprint arXiv:2506.14629}, year={2025} }

联系方式

邮箱：msayeedi212049@bscse.uiu.ac.bd, mislam221096@bscse.uiu.ac.bd

搜集汇总

数据集介绍

构建方式

VisText-Mosquito数据集的构建过程体现了多模态数据整合的前沿理念。研究团队在孟加拉国多个地区采集了1,828张蚊虫滋生地的高质量图像，涵盖白昼（8AM-5PM）和夜间不同光照条件，确保数据多样性。通过Roboflow标注平台对图像进行精细标注，包括5类滋生场所检测目标（如椰子外果皮、花瓶、轮胎等）和2类水面分割目标。特别创新的是，每幅图像都配有自然语言推理文本，包含二元问题、答案及详细解释，这些文本先由Gemini-2.5-Flash模型生成，再经人工校验。数据预处理采用自动定向、640x640统一尺寸调整、对比度优化等技术，并通过水平翻转、随机旋转和亮度调节等增强手段将检测图像扩充至4,425张，分割图像增至331张。

特点

该数据集的核心价值在于其独特的多模态架构与公共卫生应用场景的深度结合。视觉模态包含1,828张检测图像（3,752个标注）和142张分割图像（253个标注），其中椰子外果皮类占比最高（923例），水面分割以花瓶积水类为主（181例）。文本模态包含3,762条推理记录，平均字符长度230，形成视觉-语义的精准映射。数据集采用70%-20%-10%的标准划分，配备完善的目录结构，图像与标签文件严格对应。其创新性体现在：首次实现蚊虫滋生场所的检测-分割-推理全流程覆盖；标注密度达每检测图像2.05个实例；推理文本包含'积水'、'幼虫发育'等专业术语，为模型可解释性研究提供珍贵素材。

使用方法

该数据集支持端到端的多模态研究流程。对于计算机视觉任务，可直接加载YOLO系列模型（如v5s/v8n/v9s）进行目标检测训练，输入尺寸建议640x640，注意类别不平衡问题（椰子外果皮类占比24.6%）。分割任务推荐使用YOLOv8x-Seg或v11n-Seg架构，重点关注水面区域的IoU指标。自然语言处理方面，提供BLIP模型微调范例，输入图像与关联文本（CSV格式）需保持严格对应。评估体系包含传统指标（mAP@50、BLEU）和语义指标（BERTScore），建议联合视觉-语言模态进行跨模态注意力机制研究。为保障复现性，GitHub仓库提供完整的数据加载脚本和预处理代码，支持Windows/Linux平台下的分布式训练。

背景与挑战

背景概述

VisText-Mosquito数据集由孟加拉国联合国际大学等机构的研究团队于2025年提出，旨在通过多模态方法解决蚊媒疾病防控中的关键问题。该数据集整合了视觉与文本数据，包含1,828张标注图像用于蚊虫滋生地检测、142张图像用于水面分割，以及配套的自然语言推理文本。作为首个融合视觉检测与语义解释的多模态数据集，其创新性地将YOLO系列模型与BLIP语言模型相结合，为公共卫生领域的AI应用提供了新的技术范式。该数据集的建立响应了世界卫生组织关于蚊媒疾病防控的迫切需求，其多模态特性显著提升了模型的可解释性，为智能监测系统的实际部署奠定了重要基础。

当前挑战

在领域问题层面，蚊虫滋生地检测面临复杂环境下的细粒度分类挑战，如区分椰壳与轮胎等不同容器的积水特征；水面分割需克服反光、遮挡等干扰因素；文本推理要求模型建立视觉特征与流行病学知识的准确关联。在构建过程中，研究团队需处理数据采集的地理多样性需求与隐私保护的平衡，解决多模态数据对齐的标注难题，并通过人工验证确保文本推理的医学准确性。此外，数据增强策略需模拟真实环境的光照变化和视角差异，这对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在公共卫生领域，蚊媒疾病的防控一直是全球性难题。VisText-Mosquito数据集通过整合视觉与文本数据，为蚊虫孳生地检测提供了多模态解决方案。该数据集包含1828张标注图像用于目标检测，142张图像用于水面分割，每张图像均配有自然语言推理文本。研究人员可利用该数据集训练YOLO系列模型进行精准的蚊虫孳生地识别，同时结合BLIP模型生成解释性文本，实现从视觉检测到语义理解的全流程分析。这种多模态方法特别适用于复杂环境下的蚊虫监测，为传统公共卫生防控提供了智能化技术支持。

解决学术问题

该数据集有效解决了蚊媒疾病防控研究中的三个关键问题：首先，填补了多模态蚊虫孳生地数据集的空白，将视觉检测与语义理解相结合；其次，通过精细标注的水面分割数据，提升了模型对潜在孳生环境的识别精度；最后，创新的自然语言推理模块增强了AI模型的可解释性，使公共卫生决策更具透明度。在学术意义上，这不仅推动了计算机视觉在公共卫生领域的应用深度，也为多模态学习在环境健康风险评估中的交叉研究提供了范例。

衍生相关工作

该数据集已衍生出多个重要研究方向：基于YOLOv9s改进的轻量化检测模型MosquitoNet被应用于无人机巡检系统；结合Transformer架构的Mosquito-Transformer实现了端到端的检测与推理；部分研究者将其与卫星遥感数据融合，开发了城市尺度的蚊媒风险地图系统。在跨学科合作方面，数据集还启发了公共卫生领域对AI可解释性的新探索，相关成果发表在《Journal of Medical Entomology》等专业期刊。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集