ifpri-ai-documents

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/CGIAR/ifpri-ai-documents

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为农业咨询AI应用而精选的研究语料库，包含了12,007个经过GROBID工具处理的文档，涵盖了多种农业主题，特别针对低收入和中等收入国家的小规模生产商。该数据集旨在通过检索增强生成框架，提高AI生成农业建议的准确性和情境相关性。

创建时间：

2025-08-20

原始信息汇总

CGIAR/ifpri-ai-documents 数据集概述

数据集基本信息

许可证类型: CC BY 4.0
任务类别: 文本摘要
语言: 英语
标签: 科学、农业、学术
规模: 10M-100M

数据规模统计

文档数量: 12,007
页面总数: 362,716
词汇总量: 75,284,385

数据来源与处理

数据来源: GARDIAN农业食品数据和出版物中心
处理工具: 使用GROBID提取科学出版物的结构化内容
处理方式: 采用保留语义连贯性的分块方法，通过固定词汇量和重叠词汇实现分块，保持块间上下文连续性

内容特点

主题范围: 涵盖作物管理、害虫防治、气候适应和农业系统等多样化农业主题
重点领域: 特别关注中低收入国家的小规模生产者背景
应用目标: 专门为通过检索增强生成（RAG）框架提高AI生成农业建议的准确性和上下文相关性而策划

数据结构

文档格式

json { "metadata": { "gardian_id": "", "source": "", "url": "", "id": "" }, "keywords": ["keywords"], "sieverID": "", "content": "", "images": [], "tables": [] }

属性说明

metadata: 包含文档元信息对象
- gardian_id: GARDIAN生态系统中的文档标识符
- source: 文档来源或出处
- url: 下载文档的URL
- id: 通过哈希URL字符串生成的内部标识符
keywords: 从原始索引元数据获取的关键词列表
sieverID: 文档的内部标识符（必需）
content: 使用GROBID和PDFbox检索的出版物有用文本内容
images: PDFbox提取的图像键列表，可通过https://cigi-images.s3.us-east-2.amazonaws.com/{image_key}访问
tables: Tabula提取的数据表键列表，可通过https://cigi-tables.s3.us-east-2.amazonaws.com/{tables_key}访问

项目背景

开发项目: 农业生成式人工智能（GAIA）项目
支持机构: 盖茨基金会
合作机构: CGIAR与SCiO

搜集汇总

数据集介绍

构建方式

在农业科学数字化进程中，ifpri-ai-documents数据集通过系统化流程构建而成。其源数据来自GARDIAN农业知识库，利用API全面采集CGIAR中心的开放获取文献，并采用GROBID工具将PDF文档解析为结构化文本。通过重叠分块技术处理长文档，在保持语义连贯性的同时确保上下文连续性，为后续AI应用奠定高质量数据基础。

特点

该数据集涵盖作物管理、病虫害防治、气候适应等多元农业主题，特别聚焦中低收入国家的小规模农业生产场景。包含12,007份文档共计7500万词汇量，每篇文档均保留科学元数据、关键词及图像表格资源，形成机器可读的多模态农业知识体系。其结构化设计显著增强了检索增强生成框架中农业咨询内容的准确性与情境相关性。

使用方法

研究人员可借助该数据集训练农业领域的文本摘要模型，或构建专业问答系统。通过解析文档的层级化结构，能够提取关键农学知识嵌入向量数据库，为RAG pipeline提供精准检索源。用户可根据gardian_id或关键词筛选特定主题文献，亦可调用关联的图像与表格资源深化多模态研究，推动农业科学知识向实际生产力转化。

背景与挑战

背景概述

农业科学文献的数字化处理与智能应用已成为现代农业知识管理的前沿领域。ifpri-ai-documents数据集由国际食物政策研究所（IFPRI）与CGIAR联盟于2023年联合构建，依托盖茨基金会支持的GAIA项目，旨在通过机器学习技术提升农业咨询服务的精准性。该数据集收录了来自GARDIAN平台的12,007份科学文献，涵盖作物管理、病虫害防治及气候适应等核心议题，特别聚焦中低收入国家小规模农业生产者的需求。通过GROBID工具对文献进行结构化解析，并采用语义连贯的分块策略，该资源为农业领域的检索增强生成（RAG）系统提供了高质量训练基础，显著推动了农业科学知识在人工智能辅助决策中的转化效率。

当前挑战

农业领域文本的复杂性体现在专业术语密集、多语言混杂及地域性知识差异显著等方面，ifpri-ai-documents需解决农业咨询场景中科学文献与实地应用间的语义鸿沟问题。在构建过程中，团队面临三大挑战：一是非标准化PDF文档的结构化提取，需克服表格与图像数据的保留难题；二是长文本语义连贯性的维护，通过重叠分块策略平衡上下文依赖与计算效率；三是农业知识的多维度标注，需确保气候、作物、地域等元数据与文本内容的精准关联。这些挑战直接关系到RAG框架在农业咨询场景中的推理准确性与实用性。

常用场景

经典使用场景

在农业科学信息化进程中，ifpri-ai-documents数据集通过结构化处理与语义连贯的分块策略，为文本摘要任务提供了高质量语料库。其经典应用场景包括利用检索增强生成框架，对作物管理、病虫害防治等专业文献进行智能摘要生成，显著提升了农业咨询信息的提取效率与准确性。

实际应用

实际应用中，该数据集支撑了面向中小规模农户的智能农业咨询系统开发。特别针对中低收入国家的气候适应与耕作体系问题，通过RAG框架生成情境化农事建议，使前沿科研成果能够直接转化为田间地头的操作指南，强化了农业科技服务的普惠性与实效性。

衍生相关工作

基于该数据集衍生的经典工作包括CGIAR与SCiO联合开发的GAIA-CIGI管道系统，其实现了从GARDIAN平台大规模获取农业文献的自动化流程。后续研究多聚焦于跨模态农业知识检索、多语言农技咨询生成等方向，为全球农业数字化提供了重要技术范式与基础设施。

以上内容由遇见数据集搜集并总结生成