CABBAGE

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/deepplants/CABBAGE

下载链接

链接失效反馈

官方服务：

资源简介：

农业科学知识数据集包含关于农业科学问题的问答对，包括问题的不同难度选项。另外，还有一个农学视觉认知数据集，它包含与图像相关的问题和答案。

创建时间：

2025-05-28

原始信息汇总

CABBAGE 数据集概述

数据集配置

1. Agricultural Scientific Knowledge

特征:
- id: 字符串类型
- question: 字符串类型
- options: 结构体，包含default（字符串序列）和多个diff_字段（空值）
- answer: 字符串类型
- accepted_answers: 字符串序列
- category: 字符串类型
- task_type: 字符串类型
- question_type: 字符串序列
- metadata: 字符串类型
数据拆分:
- embrapa: 31,925,761字节，19,682个示例
- cca_ceu: 345,105字节，689个示例
- agriexam: 1,816,672字节，4,548个示例
下载大小: 14,460,763字节
数据集大小: 34,087,538字节

2. Agronomic Visual Cognition

特征:
- id: 字符串类型
- question: 字符串类型
- images: 图像序列
- options: 结构体，包含default（字符串序列）和多个diff_字段（字符串序列）
- answer: 字符串类型
- accepted_answers: 字符串序列
- category: 字符串类型
- task_type: 字符串类型
- question_type: 字符串序列
- metadata: 字符串类型
数据拆分:
- eppo: 3,595,527,687.5字节，26,428个示例
- plantnet: 9,117,366,142.55字节，20,350个示例
- bppq: 357,110,078.0字节，368个示例
下载大小: 12,888,811,186字节
数据集大小: 13,070,003,908.05字节

数据文件路径

Agricultural Scientific Knowledge

embrapa: Agricultural Scientific Knowledge/embrapa-*
cca_ceu: Agricultural Scientific Knowledge/cca_ceu-*
agriexam: Agricultural Scientific Knowledge/agriexam-*

Agronomic Visual Cognition

eppo: Agronomic Visual Cognition/eppo-*
plantnet: Agronomic Visual Cognition/plantnet-*
bppq: Agronomic Visual Cognition/bppq-*

搜集汇总

数据集介绍

构建方式

CABBAGE数据集通过整合多个农业科学领域的权威数据源构建而成，涵盖农业科学知识、农艺程序推理和农艺视觉认知三大模块。构建过程中采用结构化特征设计，每个条目均包含问题、选项、答案及元数据等核心字段，其中视觉认知模块还整合了图像序列数据。数据来源于EMBRAPA、PlantNet等专业机构的标注数据，通过多轮校验确保信息准确性。

特点

该数据集最显著的特点是采用多模态架构，将文本问答与视觉识别任务有机结合。农业科学知识模块包含近2万条带分类标签的问答数据，农艺程序推理模块提供分步骤的操作指导，视觉认知模块则包含超过4.7万张带标注的植物图像。各模块均设置差异化选项字段，支持难度可控的评估任务设计，metadata字段则为研究提供丰富的上下文信息。

使用方法

使用该数据集时，可根据研究需求选择不同配置模块。文本类任务可加载Agricultural Scientific Knowledge配置，视觉问答任务需调用Agronomic Visual Cognition模块。数据集采用标准HuggingFace接口，通过指定config_name和split参数即可获取对应子集。视觉数据需配合图像处理库使用，建议预处理时保留原始标注信息以支持多任务学习。

背景与挑战

背景概述

CABBAGE数据集作为农业科学领域的重要资源，由多个研究机构共同构建，涵盖了农业科学知识、农艺程序推理及农艺视觉认知三大核心模块。该数据集整合了来自Embrapa、CEU CCA及AgriExam等多个权威机构的数据，旨在为农业智能化研究提供全面的多模态数据支持。通过结构化的问题设计、丰富的选项配置以及详尽的元数据标注，该数据集不仅促进了农业知识体系的系统化整理，更推动了人工智能在农业领域的深度应用，为作物识别、病虫害诊断等实际问题的解决奠定了数据基础。

当前挑战

CABBAGE数据集在解决农业领域复杂问题时面临多重挑战。在领域问题层面，如何准确建模农业知识的多样性与地域性差异成为关键难题，例如不同作物品种的视觉特征可能随生长环境动态变化。数据构建过程中，多源异构数据的标准化处理极具挑战性，需协调来自Embrapa的科研数据与PlantNet等众包平台的图像数据之间的标注差异。此外，农艺程序推理任务要求模型理解时序性操作逻辑，这对标注的精确性与一致性提出了更高要求。视觉认知模块中，作物病虫害图像的细粒度分类还需克服类间相似性高、样本不平衡等技术瓶颈。

常用场景

经典使用场景

在农业科学领域，CABBAGE数据集被广泛应用于知识问答系统的构建与评估。该数据集通过涵盖农业科学知识、农艺程序推理和农艺视觉认知三大模块，为研究者提供了丰富的多模态数据资源。特别是在农业知识问答任务中，其结构化的问题-选项-答案框架成为测试模型理解农业专业术语和逻辑推理能力的黄金标准。

解决学术问题

CABBAGE数据集有效解决了农业领域自然语言处理的两大核心问题：专业术语的语义理解和多步骤农事操作的逻辑推理。通过整合来自Embrapa等权威机构的标注数据，该数据集填补了农业专业知识图谱构建中高质量训练样本的空白，为农业智能问答、决策支持系统等研究提供了基准测试平台。其视觉认知模块更推动了跨模态学习在植物病虫害识别等细分方向的发展。

衍生相关工作

围绕CABBAGE数据集已产生系列重要研究成果，包括基于多任务学习的农业知识图谱构建框架AgriBERT，以及结合视觉-语言预训练的作物生长阶段分析系统ViT-Crop。国际农业信息学会议曾专门组织基于该数据集的智能问答竞赛，催生了如AgroQA等开源项目，持续推动农业AI领域的技术迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集