Gharaee/BIOSCAN-5M
收藏Hugging Face2024-07-02 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Gharaee/BIOSCAN-5M
下载链接
链接失效反馈官方服务:
资源简介:
BIOSCAN-5M是一个多模态的昆虫数据集,包含超过500万昆虫标本的图像和DNA数据。每个记录包含六个主要属性:RGB图像、DNA条形码序列、条形码索引号、生物分类学分类、地理信息和标本大小。该数据集旨在帮助机器学习和生物多样性研究社区更好地理解和监测昆虫生物多样性。
BIOSCAN-5M是一个多模态的昆虫数据集,包含超过500万昆虫标本的图像和DNA数据。每个记录包含六个主要属性:RGB图像、DNA条形码序列、条形码索引号、生物分类学分类、地理信息和标本大小。该数据集旨在帮助机器学习和生物多样性研究社区更好地理解和监测昆虫生物多样性。
提供机构:
Gharaee
原始信息汇总
数据集卡片 for BIOSCAN-5M
概述
作为全球持续努力理解并监测昆虫生物多样性的一部分,我们向机器学习社区提供BIOSCAN-5M昆虫数据集。BIOSCAN-5M是一个综合数据集,包含超过500万昆虫标本的多模态信息,显著扩展了现有的基于图像的生物数据集,包括分类标签、原始核苷酸条形码序列、分配的条形码索引号、地理信息和标本大小。
每个记录都包含图像和DNA数据。BIOSCAN-5M数据集的每个记录包含六个主要属性:
- RGB图像
- DNA条形码序列
- 条形码索引号(BIN)
- 生物分类分类
- 地理信息
- 标本大小
版权和许可
BIOSCAN-5M数据集中包含的图像受版权和许可限制,具体如下:
- 版权持有者: CBG摄影组
- 版权机构: 生物多样性基因组学中心(电子邮件:CBGImaging@gmail.com)
- 摄影师: CBG机器人成像仪
- 版权许可: 知识共享署名3.0未移植(CC BY 3.0)
- 版权联系: collectionsBIO@gmail.com
- 版权年份: 2021
数据集来源
- 数据集网站: https://biodiversitygenomics.net/5M-insects/
- Google Drive: https://drive.google.com/drive/u/1/folders/1Jc57eKkeiYrnUBc9WlIp-ZS_L1bVlT-0
- GitHub仓库: https://github.com/zahrag/BIOSCAN-5M
- Zenodo: https://zenodo.org/records/11973457
- Kaggle: https://www.kaggle.com/datasets/zahragharaee/bioscan-5m/data
- 论文: https://arxiv.org/abs/2406.12723
引用
@misc{gharaee2024bioscan5m, title={{BIOSCAN-5M}: A Multimodal Dataset for Insect Biodiversity}, author={Zahra Gharaee and Scott C. Lowe and ZeMing Gong and Pablo Millan Arias and Nicholas Pellegrino and Austin T. Wang and Joakim Bruslund Haurum and Iuliia Zarubiieva and Lila Kari and Dirk Steinke and Graham W. Taylor and Paul Fieguth and Angel X. Chang }, year={2024}, eprint={2406.12723}, archivePrefix={arXiv}, primaryClass={cs.LG}, doi={10.48550/arxiv.2406.12723}, }



