osunlp/bioscan-traits

Name: osunlp/bioscan-traits
Creator: osunlp
Published: 2026-05-08 16:51:18
License: 暂无描述

Hugging Face2026-05-08 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/osunlp/bioscan-traits

下载链接

链接失效反馈

官方服务：

资源简介：

BIOSCAN-Traits是一个用于细粒度昆虫图像的特征级注释数据集，提供以形态学为中心的特征描述。这些描述是通过稀疏自编码器（SAE）部分提议和多模态LLM语言化自动生成的。数据集包含80,806个图像-文本对，涵盖736种昆虫物种，每个图像平均有4.2个特征描述。数据集支持图像分类和图像到文本任务，适用于细粒度物种分类和多模态特征描述任务。

BIOSCAN-Traits is a trait-level annotation dataset for fine-grained insect imagery with morphology-centric trait descriptions generated from sparse autoencoder (SAE) part proposals and multimodal LLM verbalization. The dataset contains 80,806 image–text pairs across 736 insect species, with an average of 4.2 trait descriptions per image. It supports image classification and image-to-text tasks, making it suitable for fine-grained species classification benchmarks and multimodal trait description tasks.

提供机构：

osunlp

搜集汇总

数据集介绍

构建方式

在生物多样性研究领域，精细的形态特征标注对于物种识别与分类至关重要。BioScan-Traits数据集基于大规模生物图像集合BIOSCAN-5M构建，通过端到端的自动化流程生成形态特征描述。该流程首先利用在DINOv2视觉特征上训练的稀疏自编码器，识别出与物种级视觉部件对应的潜在维度；随后借助多模态大语言模型Qwen2.5-VL-72B，将这些显著的视觉部件转化为自然语言的特征描述。每个描述均定位至特定身体部位，并涵盖颜色、纹理、形状及分割等形态属性，从而实现了从图像到结构化文本的精准映射。

特点

该数据集的核心特点在于其形态中心化的特征标注体系。它不仅提供了覆盖736个物种、417个属的19.1千张独特昆虫图像，更生成了总计80.8千个样本，平均每张图像关联4.2个特征样本。这些特征描述聚焦于翅膀、腿部、触角等具体部位，以自然语言详细刻画形态学特性，如“翅膀透明、修长且具可见脉纹，边缘呈浅棕色”。这种细粒度的、部位明确的文本标注，为精细识别与结构化视觉-语言学习任务提供了高质量的监督信号，显著增强了模型对生物形态多样性的理解能力。

使用方法

在计算生物学与计算机视觉的交叉研究中，该数据集支持多种下游任务的应用。用户可通过Hugging Face的datasets库直接加载数据集，便捷访问图像、物种名称、特征描述及标本唯一标识等字段。典型的使用方式包括利用特征描述文本进行监督学习，训练细粒度图像分类模型；或结合图像与文本数据，开展视觉-语言对齐与生成任务的探索。数据集的标准化格式与丰富注释，为研究人员在生物形态分析、物种鉴定及多模态学习等方向提供了可靠且高效的实验基础。

背景与挑战

背景概述

生物多样性研究领域长期面临对大量生物标本进行精细形态特征标注的挑战，传统人工方法耗时费力且难以规模化。BioScan-Traits数据集应运而生，由俄亥俄州立大学自然语言处理团队（OSU-NLP-Group）于2026年ICLR会议期间正式发布。该数据集基于大规模生物图像集BIOSCAN-5M构建，通过稀疏自编码器与多模态大语言模型相结合的创新方法，自动生成昆虫标本的形态特征描述。其核心研究在于解决生物形态学特征的结构化表征问题，为细粒度图像识别与视觉语言学习提供了重要的标注基础，推动了计算生物学与计算机视觉的交叉融合。

当前挑战

该数据集致力于应对生物形态特征自动标注这一复杂任务，其核心挑战在于如何从高度相似的昆虫图像中准确提取并描述细微的形态差异，如翅膀纹理、肢体结构等局部特征。构建过程中的技术挑战尤为显著：首先需要设计能够捕捉物种级别视觉部件的稀疏自编码器架构；其次需开发多模态大语言模型的有效提示策略，将抽象视觉特征转化为自然语言描述；同时还需处理原始数据中存在的类内差异大、类间相似度高的问题，确保生成标注的准确性与一致性。这些挑战共同构成了生物特征结构化表征领域的前沿难题。

常用场景

经典使用场景

在生物多样性信息学领域，BioScan-Traits数据集为昆虫图像的细粒度识别提供了关键支持。该数据集通过稀疏自编码器提取视觉部件特征，并借助多模态大语言模型生成形态学性状描述，使得研究者能够基于性状级别的标注进行模型训练与评估。这一方法不仅提升了昆虫物种分类的精确度，还促进了视觉与语言模态的协同学习，为生物形态特征的自动化解析奠定了坚实基础。

衍生相关工作

基于BioScan-Traits数据集，已衍生出多项经典研究工作。例如，在细粒度图像分类领域，研究者利用其性状标注训练视觉-语言模型，提升了跨物种的形态特征识别能力；在生物信息学中，该数据集支持了物种性状与生态环境关联分析的新方法开发。这些工作不仅拓展了数据集的学术价值，还推动了自动化生物图像分析技术的进步，为后续大规模生物多样性数据集构建提供了重要参考。

数据集最近研究