InsectAI Example Datasets
收藏github2026-04-27 更新2026-04-28 收录
下载链接:
https://github.com/InsectAI-COST-Action/example-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个精选的小型数据集集合,包括原始和标准化形式的数据,是在InsectAI datathon期间产生的。参与者们带来了小型数据集,团队合作采用并适应了Camtrap DP数据标准。
This is a curated collection of small-scale datasets, containing data in both raw and standardized formats, which was generated during the InsectAI datathon. Participants brought their own small datasets, and the participating teams collaborated to adopt and adapt these datasets to the Camtrap DP data standard.
创建时间:
2026-04-09
原始信息汇总
数据集概述
该页面为 InsectAI Example Datasets and Standards Development 项目,旨在整理和标准化昆虫图像数据集,推动昆虫AI领域的协作与数据共享。
- 项目仓库地址:https://github.com/InsectAI-COST-Action/example-datasets
核心内容与目标
- 数据集标准化:将分散的“小型昆虫数据集”转换为 Camtrap DP 标准格式,输出可复用的标准化数据包。
- 数据挑战涵盖:包括多模型/多标注者检测、大规模数据管理、分类模糊性、密集时序追踪、区域裁剪、可变标注范围等问题。
- 工作坊“datathon”:为期2天的研讨会,参与者将共同完成数据映射、标准开发、脚本编写,并记录标准化经验。
- 成果产出:标准化数据集、改进的 InsectAI/Camtrap DP 标准、演示材料及数据映射脚本。
数据集列表与状态
项目当前包含11个示例数据集,每个数据集均位于 datasets/<DATASET_NAME> 文件夹中。下表展示了各数据集名称、标准化进度及示例图片:
| 数据集名称 | 状态 | 示例图片 |
|---|---|---|
| Mothbox | 🟠 部分完成 (4/13) | 无标签 |
| amber | 🟡 接近完成 (3/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/amber/media/raw_images/20241102032319-snapshot.jpg" height="150"> |
| antenna | 🟢 成功 (4/4) | <img src="https://object-arbutus.cloud.computecanada.ca/ami-trapdata/newfoundland/Unit-1/2024%20Snapshots/2024%20Ami%20Images-%20Unit%201%20Pasadena/01-20240709024649-snapshot.jpg" height="150"> |
| diopsis | 🟡 接近完成 (4/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/diopsis/raw-data/diopsis_soortherkenning_AI_231_2022_08_05_00_30_44.png" height="150"> |
| flower_visitors | 🟢 成功 (5/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/flower_visitors/media/raw/2021-08-11_Achillea-millefolium-bs-01_IMG_20210811_114248.jpg" height="150"> |
| ias | 🟢 成功 (5/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/ias/media/20250613022959-snapshot.jpg" height="150"> |
| insect-detect | 🔴 失败 (1/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/insect-detect/raw/data/2026-04-16/2026-04-16_18-38-26/insdet-cam01_2026-04-16_18-38-41-142032.jpg" height="150"> |
| lepmon | 🟡 接近完成 (4/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/lepmon/media/Lepmon%23SN010030_TH_J_2025-07-03_T_0308.jpg" height="150"> |
| minimon | 🟡 接近完成 (3/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/minimon/media/E41990/20250614/E41990_20250614094103_0105_012989.jpg" height="150"> |
| plant-pollinator-interactions | 🟢 成功 (5/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/plant-pollinator-interactions/media/5mp_300521_10_18_30_696493.jpg" height="150"> |
| rangex | 🟢 成功 (5/5) | <img src="https://github.com/InsectAI-COST-Action/example-datasets/raw/main/datasets/rangex/media/HE22_01_83_2037_2.jpg" height="150"> |
数据结构说明
每个数据集文件夹内包含以下核心组件:
| 组件 | 说明 |
|---|---|
media/ |
存储所有图像文件,可能包含子目录。 |
raw-data/ |
原始标注文件(JSON、CSV、TXT等格式)。 |
code/ |
转换脚本(Jupyter、R等),用于将原始数据映射至Camtrap DP标准。 |
README.md |
数据集描述文件,包含来源及转换细节。 |
deployments.csv |
生成文件: 记录部署信息。 |
media.csv |
生成文件: 媒体文件元数据。 |
observations.csv |
生成文件: 分类学或个体观测记录。 |
datapackage.json |
生成文件: 数据包元数据描述符。 |
相关资源
- Camtrap DP 标准:https://tdwg.github.io/camtrap-dp/
- 2025年InsectAI CamtrapDP演示:https://github.com/cpadubidri/insectAI-demo.git
- awesome-insectai资源收集:https://github.com/InsectAI-COST-Action/awesome-insectai.git
搜集汇总
数据集介绍

构建方式
InsectAI Example Datasets的构建以推动昆虫图像数据标准化为核心目标。该项目通过组织名为'datathon'的两日工作坊,汇聚InsectAI成员对来自不同来源的昆虫小型数据集进行统一格式转换。每个数据集以独立文件夹存放,内部包含原始媒体文件(media/)、原始标注(raw-data/)、转换脚本(code/)以及描述性README文档。通过运行转换脚本,原始数据被映射为符合Camtrap DP标准的四个核心文件:deployments.csv、media.csv、observations.csv和datapackage.json,从而形成结构化的数据包。
特点
该数据集集合的显著特点在于其直面昆虫图像数据领域的多重挑战。它涵盖了来自多模型或多标注者的检测分类、大规模数据集的部分发布、分类学上的模糊性与粗粒度鉴定、密集时间序列中个体的跟踪与遮挡、原始图像的局部兴趣区域裁剪,以及多变的标注范围(如仅标注传粉者、所有昆虫或所有节肢动物)。这些设计使其成为测试和验证数据标准化方案的重要基准,并通过直观的状态标签(如成功、部分完成)清晰展示了各个子数据集的标准化进展。
使用方法
用户可通过GitHub仓库直接浏览和获取已标准化的数据集。每个子数据集文件夹内均包含完整的Camtrap DP格式文件,用户可直接加载datapackage.json元数据描述符进行数据分析。对于希望自己转换数据的用户,可利用templates/目录下的通用脚本及requirements.txt中的Python依赖环境,参照各数据集内code/文件夹提供的转换示例(Jupyter Notebook或R脚本),将个人采集的昆虫图像原始数据映射至统一标准格式,从而融入更广泛的生态数据共享生态。
背景与挑战
背景概述
InsectAI Example Datasets 数据集由 InsectAI COST Action 项目于近年创建,旨在应对昆虫多样性监测领域数据异构性突出的问题。该数据集汇集了来自 Mothbox、amber、antenna、diopsis 等多个子数据集的昆虫图像与元数据,核心研究团队致力于将分散的迷你数据集统一转换为 Camtrap DP 标准格式,推动昆虫图像数据的互操作性与可复现性。通过举办数据马拉松(datathon)工作坊,项目组不仅产出了标准化数据集与转换脚本,还促进了跨机构合作,为构建大规模昆虫图像数据集奠定基础。InsectAI 在生态学与计算机视觉交叉领域的影响力日益增长,为自动化昆虫监测提供了宝贵的基础设施。
当前挑战
该数据集面临的挑战首先体现在领域问题层面:昆虫智能监测需处理多模型或多标注者对同一图像的检测或分类结果、高密度时序数据中个体频繁出入与遮挡、分类学歧义与粗略鉴定,以及标注范围不一致(如仅关注传粉者、所有昆虫或所有节肢动物)。在构建过程中,数据集标准化遭遇诸多难题,包括将不同来源的原始格式(JSON、CSV 等)映射至统一标准,管理大规模数据以避免全部提交至 GBIF 等平台,处理包含感兴趣区域或裁剪图像的子数据集,以及确保生成的 CSV 与数据包描述文件符合严格规范。此外,各子数据集进度不一(部分仍未完成),反映了数据清洗与验证的持续挑战。
常用场景
经典使用场景
InsectAI Example Datasets 作为昆虫智能领域的重要标准化数据集合,其最经典的应用场景在于为自动化昆虫监测系统提供统一的数据基准。该数据集涵盖了从Mothbox到植物-传粉者交互等多种生态监测场景的影像数据,特别适用于训练和验证基于计算机视觉的昆虫识别与追踪模型。通过将原始标注数据统一转换为Camtrap DP标准格式,它为研究者提供了可复现的数据处理范例,使得来自不同传感器网络(如诱虫灯、摄像陷阱)的观测数据能够在统一框架下进行比较与融合分析。
解决学术问题
该数据集直面了昆虫监测领域长期存在的“数据孤岛”难题——不同研究团队采集的影像数据在格式、标注规范与元数据描述上差异显著,严重阻碍了跨区域、跨时间尺度的生态分析。通过制定并推广InsectAI数据标准,它有效解决了数据互操作性问题,使多源异构数据得以整合。这一举措显著降低了昆虫图像大数据集构建的技术门槛,为宏观生态学中的生物多样性评估、物候变化检测以及入侵物种追踪等学术研究奠定了坚实的数据基础设施,推动了昆虫学向数据驱动型科学的范式转变。
衍生相关工作
该数据集衍生出的关键工作主要体现在三个方面:一是推动了Camtrap DP生态数据标准的昆虫学扩展,其提出的多检测器标注、时间序列轨迹等元数据方案已被纳入WG3工作组的技术报告;二是催生了一系列数据映射工具与转换脚本,例如在datasets子目录中提供的R和Python转换管道,使得传统摄影陷阱数据能够无缝接入GBIF等全球生物多样性数据库;三是发起了“昆虫AI数据挑战”社区活动,系统梳理了大尺度数据管理中的典型困境(如分类模糊、多标注者分歧),形成了可复用的最佳实践指南,为后续构建超大规模昆虫图像数据集提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



