ai-mosquito-alert-challenge-2023
收藏Hugging Face2025-11-11 更新2025-11-12 收录
下载链接:
https://huggingface.co/datasets/mosquito-alert/ai-mosquito-alert-challenge-2023
下载链接
链接失效反馈官方服务:
资源简介:
AI 蚊子警报挑战数据集 2023 是一个由公民科学项目收集的,包含超过 10,000 张真实世界蚊子图像的数据集,用于通过人工智能和深度学习模型来改进蚊子物种的自动识别。每个图像都带有边界框坐标和蚊子类别信息。该数据集适用于非商业研究目的,并且遵循知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0)。
AI Mosquito Alert Challenge Dataset 2023 is a dataset comprising over 10,000 real-world mosquito images collected via a citizen science project, intended to advance automatic mosquito species identification using artificial intelligence and deep learning models. Each image is annotated with bounding box coordinates and mosquito category information. This dataset is available for non-commercial research purposes and is released under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0).
创建时间:
2025-11-04
原始信息汇总
AI Mosquito Alert Challenge Dataset 2023 数据集概述
数据集基本信息
- 数据集名称:AI Mosquito Alert Challenge Dataset 2023
- 许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
- 任务类别:目标检测、图像分类
- 语言:英语
- 标签:生物学
- 数据规模:10K<n<100K
- 图像数量:10357张标注图像
- 数据总量:约9.8 GB
数据集描述
这是一个用于自动蚊子物种识别的精选数据集,专门为AI Mosquito Alert 2023挑战赛准备。数据集包含公民科学项目中收集的蚊子图像,旨在通过AI和深度学习模型改进蚊子物种识别。
数据集结构
文件组织
mosquito_dataset_ai_v1/ ├── images/ │ ├── image1.jpg │ ├── image2.jpg │ └── ... ├── labels/ │ └── annotations.csv └── license.txt
标注文件
- 标注文件:annotations.csv
- 标注格式:包含图像文件名、图像尺寸、边界框坐标(左上角和右下角表示法)和类别标签
- 坐标字段:bbx_xtl, bbx_ytl, bbx_xbr, bbx_ybr
类别分布
| 类别名称 | 分类级别/描述 | 图像数量 |
|---|---|---|
| aegypti | 埃及伊蚊(物种级别) | 47 |
| albopictus | 白纹伊蚊(物种级别) | 4612 |
| anopheles | 按蚊属(属级别) | 84 |
| culex | 库蚊属(属级别) | 4563 |
| culiseta | 脉毛蚊属(属级别) | 622 |
| japonicus-koreicus | 日本伊蚊/韩国伊蚊物种复合体 | 429 |
| 总计 | 10357 |
数据来源与创建
数据收集
- 来源:Mosquito Alert公民科学平台
- 采集方式:志愿者通过移动应用程序提交蚊子照片
- 质量控制:由志愿昆虫学家验证物种身份,排除低质量、重复或不确定的图像
标注过程
- 边界框生成:使用在Mosquito Alert数据上训练的自动检测模型
- 质量保证:部分标注经过人工审核以提高准确性
- 物种鉴定:由Mosquito Alert项目的志愿昆虫学家完成
使用范围
直接用途
- 计算机视觉、生物多样性监测和病媒监测的研究和教育目的
- 训练、验证和基准测试用于自动蚊子物种识别的目标检测或图像分类模型
- 开发支持公民科学倡议和蚊子分布公共卫生研究的AI工具
超出范围用途
- 禁止用于商业目的(非商业许可证)
限制与注意事项
数据偏差
- 地理偏差:图像提交依赖于Mosquito Alert用户的地理分布
- 类别不平衡:某些蚊子物种(如白纹伊蚊)过度代表
- 图像质量差异:照片在光照、对焦和尺度上存在差异
- 自动标注噪声:边界框部分自动生成,可能存在微小不准确
隐私保护
- 所有EXIF元数据已移除以消除位置或设备信息
- 图像仅显示自然环境或家庭环境中的蚊子,不包含可识别人员或私人物品
引用信息
BibTeX: bibtex @dataset{mosquito_alert_2023, title = {AI Mosquito Alert Challenge Dataset 2023}, author = {Mosquito Alert Community}, year = {2025}, publisher = {Zenodo}, version = {1.0}, doi = {10.5281/zenodo.15063886}, url = {https://doi.org/10.5281/zenodo.15063886} }
致谢要求
使用此数据集时请注明:"Mosquito Alert dataset, downloaded from [link], CC BY-NC-SA 4.0",并鸣谢Mosquito Alert社区。
搜集汇总
数据集介绍

构建方式
在公共卫生昆虫学监测领域,该数据集通过公民科学项目构建而成。志愿者使用移动设备拍摄蚊虫图像并上传至Mosquito Alert平台,由昆虫学专家团队对图像进行物种鉴定验证。采用自动化检测模型生成边界框标注,并经过人工抽样复核确保标注质量,最终形成包含10357张真实环境图像的标准化数据集。
特点
该数据集涵盖六类蚊虫分类单元,包含物种级与属级分类标签。图像呈现自然光照条件下的形态特征差异,标注文件采用CSV格式统一存储边界框坐标与分类信息。数据分布存在明显的类别不均衡现象,其中白纹伊蚊与库蚊属样本占比最高,真实反映了公民科学数据的采集特征。
使用方法
研究人员可基于该数据集开发蚊虫自动识别模型,适用于目标检测与图像分类任务。使用前需遵循CC BY-NC-SA 4.0许可协议,通过解析annotations.csv文件获取标注数据。建议采用数据增强技术平衡类别分布,并在模型评估时分别计算各类别的性能指标以应对数据偏差问题。
背景与挑战
背景概述
随着全球蚊媒疾病传播风险加剧,基于公民科学的生物监测技术成为公共卫生领域的重要研究方向。2023年发布的AI蚊虫警报挑战数据集由西班牙国家研究委员会等机构联合蚊虫警报社区构建,汇集了来自移动端公民科学项目的10357张实地蚊虫图像。该数据集通过深度学习技术实现蚊种自动识别,涵盖埃及伊蚊、白纹伊蚊等六类蚊虫的边界框标注,为病媒生物分布研究提供了大规模视觉数据支撑,显著推动了生态学与计算机视觉的跨学科融合。
当前挑战
该数据集致力于解决野外环境下蚊虫物种自动检测与分类的复杂问题,其核心挑战在于克服公民科学图像存在的类间形态相似性、拍摄角度多变以及背景干扰等视觉识别难点。在构建过程中,团队面临地理分布偏差导致区域代表性不足、类目数量严重失衡(如白纹伊蚊样本占比44.5%)、自动化标注引入的边界框噪声,以及为保护隐私而移除EXIF信息造成的环境上下文缺失等多重技术障碍。
常用场景
经典使用场景
在公共卫生监测领域,该数据集为蚊媒传染病防控提供了关键技术支持。其最经典的应用场景是训练深度学习模型进行蚊虫物种自动识别,通过超过一万张公民科学拍摄的真实图像,结合边界框标注和六类蚊种分类信息,有效支撑了目标检测与图像分类算法的开发与优化。这种基于视觉的识别方法显著提升了蚊虫监测的效率和覆盖范围。
解决学术问题
该数据集主要解决了传统蚊虫监测中人工鉴定效率低下的学术难题。通过提供大规模标注图像,它支持计算机视觉模型在复杂背景下识别特定蚊种的能力研究,特别是针对传播登革热、寨卡病毒等重要病媒蚊种的鉴别。这种数据驱动的方法为生态学与公共卫生的交叉研究建立了标准化基准,推动了智能监测技术的基础理论发展。
衍生相关工作
基于该数据集衍生的经典工作包括Mosquito Alert YOLOv5基线模型及其改进版本,这些研究探索了在类不平衡条件下优化检测性能的算法。相关成果进一步催生了多尺度特征融合网络和迁移学习策略的创新,为生物多样性监测中的细粒度识别任务提供了重要参考,并推动了公民科学数据与专业监测系统的深度融合。
以上内容由遇见数据集搜集并总结生成



