Butterfly-Species

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/gracehuggingface/Butterfly-Species

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了中国一级保护动植物物种的代表性图像，旨在提供清晰且视觉信息丰富的样本。数据集包含227种一级保护动物和58种一级保护植物，以及4种常见药物的图像。每个物种都配有一张经过精心挑选的代表性图片。数据集适用于图像分类和文本生成任务，支持英文和中文，主题涉及环境、生态系统、主动性和风险意识。数据集规模较小，样本数量少于1,000。使用该数据集时需遵循CC-BY-NC-4.0许可协议。如果数据集对您的研究有帮助，请引用相关论文《Evaluating Proactive Risk Awareness of Large Language Models》。

创建时间：

2026-04-24

原始信息汇总

数据集概述

该数据集聚焦于中国一级保护动植物，并补充了常见药物类别，主要用于图片分类与文本生成任务。

核心内容

保护物种：包含227种中国一级保护动物、58种中国一级保护植物。
补充类别：4种常见药物。
数据规模：样本总数少于1000（n<1K）。

数据特点

每个物种配有一张代表性图片，力求清晰且视觉信息丰富。

任务类型

图像分类（image-classification）
文本生成（text-generation）

语言与标签

语言：英文（en）、中文（zh）
标签：环境（environment）、生态系统（eco-system）、主动性（proactive）、风险意识（risk-awareness）

引用信息

若数据集对您有帮助，请引用论文：Evaluating Proactive Risk Awareness of Large Language Models

搜集汇总

数据集介绍

构建方式

在中国生态保护领域，国家重点保护动植物名录是衡量生物多样性重要性的基准。为助力大规模语言模型在环境与生态系统场景下的认知研究，研究人员精心构建了Butterfly-Species数据集。该数据集以中国《国家重点保护野生动物名录》和《国家重点保护野生植物名录》中列为一级保护的物种为对象，逐一筛选并配置代表性图像，确保每幅图像在视觉清晰度和信息量上达到最优。数据集涵盖227种一级保护动物与58种一级保护植物，并额外纳入4种常见药物样本，总规模低于1千条，于HuggingFace平台以CC-BY-NC-4.0许可发布。

特点

该数据集在生态智能领域展现出鲜明特质：首先，它以中国顶级保护物种为核心，聚焦于环境与生态系统的风险感知主题，兼具英语与中文双语注释，支持图像分类与文本生成任务。其次，每张图像均经过严格筛选，以最大化视觉信息密度，为模型提供高保真训练素材。尤为独特的是，数据集强调“主动风险意识”标签，旨在评测语言模型对潜在生态威胁的预判能力，并与配套论文《Evaluating Proactive Risk Awareness of Large Language Models》紧密关联，推动人工智能在生态安全中的前瞻性应用。

使用方法

在实际应用中，Butterfly-Species数据集为多模态生态研究提供了便捷入口。用户可通过HuggingFace的datasets库直接加载，使用如`load_dataset('Butterfly-Species')`命令快速获取图像与标签数据。数据集默认划分为训练集，适合用于图像分类模型的微调，同时因包含英文与中文描述字段，也适用于文本生成任务中关于保护物种知识的问答生成。推荐将图像与物种标签配对，构建监督学习管道；或结合主动风险意识基准，评估模型在不确定性场景下的推理能力。引用时需参考配套论文，以保持学术透明性。

背景与挑战

背景概述

蝴蝶物种数据集（Butterfly-Species）由研究团队于2025年创建，旨在支持大型语言模型在环境与生态系统领域的主动风险感知能力评估。该数据集收录了中国境内列为一级保护动植物的227种动物和58种植物的代表性图像，每张图像经过精心筛选以最大化视觉清晰度和信息量。核心研究问题聚焦于多模态模型对濒危物种的识别与风险预警能力，为生物多样性保护与人工智能伦理交叉研究提供了关键基准。数据集源自中国林业与草原局官方名录，其发布推动了生态敏感场景下语言模型安全性的实证研究。

当前挑战

数据集所解决的领域问题在于构建面向视觉与语言融合任务的濒危物种识别基准，挑战在于模型需同时应对物种间细微形态差异、低分辨率野外图像干扰以及罕见物种样本稀疏性。构建过程中面临的障碍包括官方保护名录中图像版权限制、栖息地分布碎片化导致的高质量采样困难，以及物种分类学命名与常见名称之间的歧义映射。此外，数据集仅含数百个样本的规模性限制，对模型泛化能力提出了严峻考验，易引发过拟合与类别不平衡问题。

常用场景

经典使用场景

Butterfly-Species数据集作为中国一级保护动植物的图像分类基准，广泛应用于生态监测与生物多样性研究。研究者利用该数据集训练深度学习模型，实现对濒危物种的自动识别与准确分类，为野外调查和物种保护提供高效的技术支撑。其图像均经过精心筛选，确保清晰且信息丰富，适合用于细粒度图像分类任务的模型评估与迁移学习研究。

衍生相关工作

基于该数据集，衍生出多项相关工作，包括评估大型语言模型对生态风险情境的主动预警能力的研究，以及结合图像与文本的多模态分析框架，用于探索模型在识别稀有物种时的知识缺失与偏差。这些工作进一步催生了针对生态保护领域的风险感知基准构建，为未来智能环保系统的安全性与可靠性提供了重要参考。

数据集最近研究