Gharaee/BIOSCAN_1M_Insect_Dataset
收藏BIOSCAN_1M Insect Dataset
数据集概述
BIOSCAN-1M Insect Dataset 提供了关于昆虫的信息,每个记录包含以下四个主要属性:
- DNA 条形码序列
- 条形码索引号 (BIN)
- 生物分类等级注释
- RGB 图像
I. DNA 条形码序列
提供的 DNA 条形码序列展示了核苷酸的排列:
- 腺嘌呤 (A): 红色
- 胸腺嘧啶 (T): 蓝色
- 胞嘧啶 (C): 绿色
- 鸟嘌呤 (G): 黄色
示例序列:
TTTATATTTTATTTTTGGAGCATGATCAGGAATAGTTGGAACTTCAATAAGTTTATTAATTCGAACAGAATTAAGCCAACCAGGAATTTTTA ...
II. 条形码索引号 (BIN)
BIN 作为林奈名称的替代,提供了一种以遗传为中心的生物分类方法,强调遗传代码在分类学中的重要性。
示例 BIN:
BOLD:AER5166
III. 生物分类等级注释
分类群等级注释根据进化关系将生物分层分类,根据共享特征和遗传相关性将物种分组。
IV. RGB 图像
来自 BIOSCAN-1M Insect Dataset 中 16 个最密集的目中的原始昆虫图像。每个图像下方的数字标识了每个类别中的图像数量,并清楚地展示了 BIOSCAN-1M Insect Dataset 中的类别不平衡程度。
图像示例: <div align="center"> <table> <!-- First Row --> <tr> <td align="center" ><img src="images/Diptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Hymenoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Coleoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Hemiptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Diptera: 896,234</strong></td> <td align="center"><strong>Hymenoptera: 89,311</strong></td> <td align="center"><strong>Coleoptera: 47,328</strong></td> <td align="center"><strong>Hemiptera: 46,970</strong></td> </tr> <!-- Second Row --> <tr> <td align="center" ><img src="images/Lepidoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Psocodea.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Thysanoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Trichoptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Lepidoptera: 32,538</strong></td> <td align="center"><strong>Psocodea: 9,635</strong></td> <td align="center"><strong>Thysanoptera: 2,088</strong></td> <td align="center"><strong>Trichoptera: 1,296</strong></td> </tr> <!-- Third Row --> <tr> <td align="center" ><img src="images/Orthoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Blattodea.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Neuroptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Ephemeroptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Orthoptera: 1,057</strong></td> <td align="center"><strong>Blattodea: 824</strong></td> <td align="center"><strong>Neuroptera: 676</strong></td> <td align="center"><strong>Ephemeroptera: 96</strong></td> </tr> <!-- Fourth Row --> <tr> <td align="center" ><img src="images/Dermaptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Archaeognatha.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Plecoptera.jpg" width="400px" height="400px" class="image"></td> <td align="center" ><img src="images/Embioptera.jpg" width="400px" height="400px" class="image"></td> </tr> <tr> <td align="center"><strong>Dermaptera: 66</strong></td> <td align="center"><strong>Archaeognatha: 63</strong></td> <td align="center"><strong>Plecoptera: 30</strong></td> <td align="center"><strong>Embioptera: 6</strong></td> </tr> </table> </div>
类别分布
BIOSCAN-1M Insect Dataset 中的类别分布和类别不平衡。图像展示了类别不平衡是昆虫群落中的一个固有特征。




