agricultural-data

Hugging Face2025-07-27 更新2025-07-28 收录

下载链接：

https://huggingface.co/datasets/liaad/agricultural-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置：AgroQA、CropRecommendation、MilkQA-v2和default。AgroQA和MilkQA-v2是问答类型的数据集，包含问题和答案字段；CropRecommendation是农作物推荐类型的数据集，包含氮、磷、钾、温度、湿度、ph值、降雨量和标签字段；default配置未提供详细字段信息。每个配置都有训练集拆分，且提供了相应的文件路径。

创建时间：

2025-07-26

原始信息汇总

数据集概述

数据集基本信息

数据集名称：agricultural-data
数据集地址：https://huggingface.co/datasets/liaad/agricultural-data

数据集配置

1. AgroQA

描述：农业问答数据集
特征：
- question：字符串类型
- answer：字符串类型
数据量：
- 训练集样本数：3044
- 训练集大小：307123字节
下载信息：
- 下载大小：134159字节
- 数据集大小：307123字节

2. CropRecommendation

描述：作物推荐数据集
特征：
- nitrogen：浮点数类型
- phosphorus：浮点数类型
- potassium：浮点数类型
- temperature：浮点数类型
- humidity：浮点数类型
- ph：浮点数类型
- rainfall：浮点数类型
- label：字符串类型
数据量：
- 训练集样本数：2200
- 训练集大小：147700字节
下载信息：
- 下载大小：96418字节
- 数据集大小：147700字节

3. MilkQA-v2

描述：牛奶问答数据集
特征：
- question：字符串类型
- answer：字符串类型
数据量：
- 训练集样本数：2657
- 训练集大小：4808531字节
下载信息：
- 下载大小：2511965字节
- 数据集大小：4808531字节

4. default

描述：默认数据集
特征：
- text：字符串类型
数据量：
- 训练集样本数：1
- 训练集大小：26字节
下载信息：
- 下载大小：775字节
- 数据集大小：26字节

搜集汇总

数据集介绍

构建方式

在农业知识智能化发展的背景下，agricultural-data数据集通过多源异构数据整合构建而成。数据集包含AgroQA、CropRecommendation和MilkQA-v2三个子集，分别采用农业问答对采集、农作物生长环境参数监测记录和乳业知识库抽取等方式构建。其中问答数据通过专业农业知识库结构化处理，环境参数数据来自标准化农业气象站监测，所有数据均经过领域专家校验确保准确性。

使用方法

该数据集适用于农业知识图谱构建、智能问答系统训练和作物生长预测模型开发等多个场景。研究者可通过HuggingFace平台直接加载特定子集，如使用AgroQA进行农业NLP模型微调，或基于CropRecommendation开发决策树分类器。对于MilkQA-v2子集，建议采用检索增强生成技术构建专业问答系统。所有数据均以标准化拆分格式存储，支持pandas或TensorFlow等工具的直接调用。

背景与挑战

背景概述

Agricultural-data数据集是一个专注于农业领域的多任务数据集，涵盖了农业问答、作物推荐和乳业问答等多个子领域。该数据集的创建旨在为农业智能化提供数据支持，通过整合多样化的农业知识，推动农业决策系统的智能化发展。数据集由多个子集构成，包括AgroQA、CropRecommendation和MilkQA-v2，分别针对农业知识问答、作物种植环境参数推荐和乳业知识问答等具体问题。这些子集的数据来源于农业领域的实际应用场景，具有较强的实用性和研究价值。

当前挑战

Agricultural-data数据集在解决农业智能化问题时面临多重挑战。首先，农业领域的知识具有高度专业性和地域性，如何确保数据覆盖广泛且准确是一大难题。其次，作物推荐任务中涉及的环境参数（如氮、磷、钾含量等）需要高精度的测量和标注，数据采集成本较高。此外，农业问答系统的构建需要处理自然语言理解和领域知识结合的复杂性，这对模型的语义理解能力提出了较高要求。在数据构建过程中，如何平衡数据的多样性和专业性，以及如何处理不同子领域之间的数据异构性，也是亟待解决的问题。

常用场景

经典使用场景

在农业智能化研究领域，agricultural-data数据集通过其AgroQA和MilkQA-v2子集，为农业知识问答系统的开发提供了丰富的语料库。这些数据不仅涵盖了作物种植、畜牧养殖等多样化问题，还以精准的问答对形式呈现，极大地促进了自然语言处理技术在农业咨询场景中的应用。CropRecommendation子集则通过土壤成分与气象参数的关联数据，为精准农业中的作物推荐模型构建奠定了数据基础。

解决学术问题

该数据集有效解决了农业领域专业知识结构化不足的难题，其多模态特性为跨学科研究提供了接口。AgroQA子集通过语义解析技术，显著提升了农业知识图谱的构建效率；CropRecommendation子集则突破了传统作物推荐模型对实验数据的依赖，使得基于机器学习的决策系统能够在有限标注数据下实现高精度预测。这些突破对数字农业发展具有里程碑意义。

实际应用

在实际农业生产中，基于该数据集开发的智能系统已显现巨大价值。农业问答模块被集成至移动应用，为农民提供实时种植指导；作物推荐模型在精准农业平台得到部署，帮助农户根据土壤检测数据优化种植结构。乳业领域的MilkQA-v2子集更是推动了智能养殖顾问系统的落地，显著降低了畜牧业专业知识获取门槛。

数据集最近研究