european-flora-fungi-thinking

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/Mightypeacock/european-flora-fungi-thinking

下载链接

链接失效反馈

官方服务：

资源简介：

欧洲植物与真菌识别数据集是一个精心策划的数据集，包含377个多轮对话，涵盖39种欧洲植物和蘑菇物种，分为14个易混淆组。该数据集旨在通过思维痕迹（<think>...</think>）微调视觉语言模型（如Gemma 3、LLaVA、Qwen-VL），用于以下任务：1) 从照片中进行物种识别并逐步推理；2) 迭代诊断缩小范围；3) 易混淆物种的区分；4) 安全性评估；5) 错误识别的纠正；6) 人机交互反馈。数据集统计包括总对话数、物种数、易混淆组数、识别对话数、迭代缩小对话数、错误识别纠正数、并排比较数、总字数、思维痕迹总数等。数据格式为TRL SFT视觉格式的多轮对话，包含消息、图像数量和元数据。数据集适用于视觉问答、图像分类和图像到文本等任务，并包含详细的思维痕迹结构和训练配置建议。

The European Plants and Fungi Identification Dataset is a carefully curated dataset containing 377 multi-turn conversations covering 39 European plant and mushroom species, divided into 14 confusing groups. The dataset aims to fine-tune vision-language models (e.g., Gemma 3, LLaVA, Qwen-VL) using thought traces (<think>...</think>) for the following tasks: 1) species identification from photos with step-by-step reasoning; 2) iterative diagnosis to narrow down possibilities; 3) differentiation of confusing species; 4) safety assessment; 5) correction of misidentifications; 6) human-machine interactive feedback. Dataset statistics include total conversation count, species count, confusing group count, identification conversations, iterative narrowing conversations, misidentification corrections, side-by-side comparisons, total word count, and total thought traces. The data format is multi-turn conversations in TRL SFT visual format, including messages, image counts, and metadata. The dataset is suitable for visual question answering, image classification, and image-to-text tasks, and includes detailed thought trace structures and training configuration recommendations.

创建时间：

2026-04-22

原始信息汇总

🌿🍄 欧洲植物与真菌识别数据集概述

数据集基本信息

数据集名称: European Flora & Fungi Identification with Thinking Traces
语言: 英语、法语、德语
许可证: CC-BY-NC-4.0（仅限研究及教育用途）
任务类型: 视觉问答、图像分类、图像到文本
数据集规模: 少于1000条样本
总对话数: 377条多轮对话

核心目的

该数据集旨在用于微调视觉语言模型（如Gemma 3、LLaVA、Qwen-VL），使其具备以下能力：

物种识别：通过照片进行逐步推理的物种识别
迭代诊断缩小：模型提出候选物种，提出针对性问题，用户提供证据，模型更新置信度分数并排除物种，最终达成识别
相似物种区分：系统性地排除危险的混淆物种
安全性评估：可食性分类并附带适当警告
错误识别纠正：捕捉并纠正危险的识别错误
人工反馈循环：用户查看置信度评分表，同意/不同意，模型进行修正

数据统计

指标	数值
总对话数	377
真菌种类	22种
植物种类	17种
混淆组数	14组
识别对话	175条
迭代缩小对话	111条
错误识别纠正	25条
并排对比	66条
总字数	387,161字
总思考痕迹数	1,511条
平均思考痕迹长度	126字
平均每轮对话轮次	4.0轮

混淆组覆盖

🍄 真菌混淆组

混淆组	危险等级	物种数	描述
死帽菇与毁灭天使复合群	致命	5	死帽菇、毁灭天使、田野蘑菇、黄斑蘑菇、草菇
鸡油菌复合群	中等	3	鸡油菌、假鸡油菌、杰克灯菇
牛肝菌/波尔图复合群	中等	3	美味牛肝菌/牛肝菌、苦牛肝菌、魔牛肝菌
伞菌复合群	高	3	伞菌、多毛伞菌、致命环柄菇
羊肚菌复合群	高	2	普通羊肚菌、假羊肚菌/脑蘑菇
蜜环菌与死亡钟菇	致命	2	蜜环菌、死亡钟菇
墨伞菌复合群	中等	2	多毛墨伞菌/律师假发、普通墨伞菌
春季白蘑菇复合群	高	2	圣乔治蘑菇、致命纤维伞菌/红染丝盖伞

🌿 植物混淆组

混淆组	危险等级	物种数	描述
野蒜致命相似物	致命	3	野蒜/熊葱、铃兰、秋水仙/藏红花
伞形科/胡萝卜科复合群	致命	4	野萝卜、毒芹/毒参、愚人欧芹、毒水芹
欧洲浆果混淆	高	3	越橘/欧洲蓝莓、致命颠茄、四叶重楼
接骨木复合群	中等	2	接骨木/接骨木果、矮接骨木/丹草
野生绿叶菜/可食杂草复合群	高	3	地榆/痛风草、普通荨麻/刺荨麻、白死荨麻
茄科浆果	高	2	黑茄、苦甜/木茄

数据格式

每条数据为一个多轮对话，遵循TRL SFT视觉格式，包含以下字段：

messages: 对话轮次列表，每轮包含角色（用户/助手）和内容（图像+文本）
num_images: 图像数量
metadata: 元数据字典，包含：
- 物种学名与常用名
- 可食性分类
- 物种类型（植物/真菌）
- 所属混淆组名称
- 危险等级
- 场景类型（识别/迭代缩小/错误纠正/对比）
- 相似物种列表
- 对话轮次
- 地区与季节

思考痕迹结构

类型1：直接识别（IDENTIFICATION）

模型通过观察、诊断分析、相似物排除、置信度评估四步进行识别输出。

类型2：迭代缩小（ITERATIVE_NARROWING）

模型作为交互式诊断密钥，每轮更新候选状态、分析新证据、排除候选物、提出最能区分物种的后续问题，最终输出包含标准评分卡。

类型3：错误识别纠正（MISIDENTIFICATION_CORRECTION）

用户自信但错误地将致命物种识别为可食物种，模型紧急纠正并提供证据。

类型4：并排对比（COMPARISON）

用户提供两个相似标本，模型构建系统性的对比表格。

图像来源建议

数据集包含图像占位符，训练时建议配合以下数据集使用：

Danish Fungi 2024（6.2GB欧洲真菌图像）
PlantNet-300K（306K欧洲植物图像）
Fungi-ID（2,829种真菌图像）
Oxford Flowers 102（欧洲花卉图像）
iNaturalist（筛选欧洲地理坐标）

人工反馈工作流

数据集设计为迭代改进模式：

阶段1（当前）：基于分类学和专家知识的合成思考痕迹
阶段2：人类专家审查并修正痕迹，添加区域变异
阶段3：用户提供图像→模型生成痕迹→专家验证
阶段4：主动学习——聚焦模型置信度最低的案例

安全声明

本数据集仅用于AI模型训练。切勿仅依赖AI模型进行野生食物识别，野生植物和真菌的错误识别可能导致严重疾病或死亡，请始终咨询合格专家和多种可靠的野外指南。

搜集汇总

数据集介绍

构建方式

该数据集以欧洲常见的39种植物与真菌物种为核心，基于其易混淆的14个分类群组进行系统性构建。通过结合植物学与真菌学的专家知识，借助大语言模型自动生成涵盖物种识别、迭代诊断、误判纠正及并排比较等多种场景的多轮对话数据。每段对话均包含结构化的思维链推理过程，并辅以置信度评分与候选物种排除逻辑，最终形成377条高质量对话样本。

特点

数据集的一大特色在于其为通用视觉语言模型微调而设计的思维链推理结构。每条对话中的模型回答均嵌入`<think>`模块，系统性地记录观察、诊断、消除混淆与置信度评估的推理过程。此外，数据集按危险等级（致命、高、中）分类管理易混淆的物种群组，并设计了多种场景类型，包括直接识别、迭代缩小范围、误判纠正及并排比较，强化模型在复杂野外辨识任务中的鲁棒性与交互性。

使用方法

使用时，用户可通过HuggingFace Datasets库直接加载该数据集，并将其与TRL SFTTrainer及Unsloth框架配合，微调Gemma 3、LLaVA、Qwen-VL等视觉语言模型。建议配套使用Danish Fungi 2024、PlantNet-300K等图片数据集以提供视觉输入。训练时需设置`skip_prepare_dataset=True`以适配多轮对话格式，模型将学习通过逐步推理与迭代提问来精准识别欧洲植物与真菌物种。

背景与挑战

背景概述

欧洲大陆丰富的植物与真菌多样性，催生了复杂的物种识别与安全评估需求，尤其在可食用与剧毒物种形态高度相似的背景下，成为计算机视觉与多模态大语言模型研究的核心挑战。european-flora-fungi-thinking数据集由研究团队于2024年创建，聚焦14个易混淆物种组（涵盖39种欧洲植物与真菌），旨在通过思维链（Chain-of-Thought）机制提升视觉-语言模型的物种辨识能力。该数据集包含377段多轮对话，覆盖直接识别、迭代诊断、误判纠正等场景，其独特的思考轨迹结构为模型提供了可解释的推理路径。该工作借鉴了BioCLIP、FungiTastic等前沿方法，对食药安全、生态监测及AI辅助野外生存领域产生了重要推动力。

当前挑战

该数据集的构建面临多重挑战。首要挑战在于解决物种辨识这一高风险领域问题：死亡帽与白毒伞等剧毒物种与可食用菌极难区分，传统图像分类模型因忽略形态细节与生态学线索而存在致命缺陷。构建过程中，团队需通过14个易混淆组涵盖58种关键特征维度，并手工编织377段含安全警告与多轮诊断的对话，确保每段对话包含超10个逻辑推理步骤。图像来源依赖丹麦真菌数据集、PlantNet-300K等外部资源（共51.2GB），需处理光照、视角与标本成熟度差异带来的特征噪声。此外，思维轨迹模板需同时满足科学分类学的严谨性与人类专家的可审校性，数据集容量不足1K样本，需设计主动学习策略以应对3200余种欧洲物种的泛化需求。

常用场景

经典使用场景

欧洲植物与真菌识别数据集（European Flora & Fungi Identification with Thinking Traces）专为视觉-语言模型的精细化调优而设计，尤其聚焦于物种鉴定场景。其核心应用涵盖多轮交互式诊断：模型基于用户提供的照片，通过逐步推理链进行物种识别，并在后续对话中依据用户反馈迭代缩小候选范围，直至达成精准鉴定。该数据集还支持相似物种的消歧判别、可食性安全评估以及误判纠正，为模型提供了从宏观分类到微观特征辨析的完整思维轨迹。

实际应用

在实际应用中，该数据集驱动的模型可部署于野外观察辅助工具、食品安全预警平台及公民科学项目。例如，用户拍摄未知植物或真菌后，模型能依据形态特征逐步鉴别物种并提示毒性风险，同时支持用户上传额外信息以修正鉴定结论。这类应用对于户外爱好者、采食者及生态监测人员具有重要实用价值，能够降低因误判致命剧毒物种（如死亡帽蘑菇、毒参）而引发的健康风险。

衍生相关工作

该数据集得益于并反哺了一系列前沿研究工作，包括基于DeepSeek-R1的推理链条格式定义、Virgo方法论的思考轨迹训练范式，以及FungiTastic与PlantNet-300K等欧洲生物分类基准数据集。其迭代式诊断流程与人机交互反馈机制为AgriChat等农业领域的视觉-语言模型数据管线提供了设计参考，同时推动了一类新型“可解释性视觉鉴定”工作的生成，如面向相似物种消歧的逐步消去推理方法与安全性评估模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集