RayNene/Agricultural-QA-Data-4-East-Africa
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/RayNene/Agricultural-QA-Data-4-East-Africa
下载链接
链接失效反馈官方服务:
资源简介:
该存储库包含一个高质量的多语言农业指令数据集,专为支持东非小农户的AI系统而设计。它还展示了一个基于此数据集进行微调的Gemma 4多语言农业助手。数据集支持英语、斯瓦希里语、基尼亚卢旺达语、基库尤语(吉库尤语)、德霍卢奥语(卢奥语)和索马里语。项目旨在解决非洲资源匮乏语言中缺乏结构化农业NLP数据集的问题,支持多语言农民咨询系统、基于短信的农业助手、作物和土壤智能工具以及农村AI可访问性解决方案。数据集格式包含问题、简短答案、增强提示和增强完成字段,主要用于Gemma 4指令微调。
This repository contains a high-quality multilingual agricultural instruction dataset designed for building AI systems that support smallholder farmers across East Africa. It also demonstrates a fine-tuned Gemma 4 multilingual agricultural assistant trained on this dataset. The dataset supports English, Kiswahili, Kinyarwanda, Kikuyu (Gikuyu), Dholuo (Luo), and Somali. The project addresses the lack of structured agricultural NLP datasets in under-resourced African languages, enabling multilingual farmer advisory systems, SMS-based agricultural assistants, crop and soil intelligence tools, and rural AI accessibility solutions. The dataset format includes question, answers, enhanced_prompt, and enhanced_completion fields, primarily used for Gemma 4 instruction fine-tuning.
提供机构:
RayNene
搜集汇总
数据集介绍

构建方式
该数据集专为东非小农户农业智能系统设计,旨在弥补非洲低资源语言在农业自然语言处理领域中结构化数据的匮乏。其构建基于多语种农业知识,涵盖英语、斯瓦希里语、卢旺达语、基库尤语、多洛语和索马里语等六种语言。数据以JSONL格式组织,每一条目包含原始问题、简洁回答、增强指令提示及详细结构化回应,其中增强提示与完成对是微调的核心部分。通过结合来自联合国粮农组织及区域农业研究机构的公开推广资源,并辅以人工与合成翻译,确保了知识与语言的双重覆盖。
使用方法
用户可直接利用该数据集对大型语言模型进行指令微调,首选使用增强提示与完成对字段进行训练。模型微调后可用于构建多语种农业问答系统,支持用户以任意目标语言输入农业问题,并接收同语言的精确建议。此外,数据集还可嵌入到短信机器人或离线应用中,为偏远地区农民提供实时作物管理、病虫害防治及灌溉策略等实用信息。为达到最佳效果,建议在应用前对合成翻译部分进行人工验证,并针对具体方言差异做适当调整。
背景与挑战
背景概述
该数据集由Adaptation Labs团队于2026年创建,核心研究人员Ray Munene主导开发,旨在填补东非地区低资源语言农业自然语言处理数据的空白。研究聚焦于构建多语言农业问答系统,覆盖斯瓦希里语、卢旺达语、吉库尤语、卢奥语、索马里语及英语六种语言,以支持小农户获取精准农技知识。通过微调Google DeepMind的Gemma 4模型,数据集实现了跨语言农业咨询的自动响应,显著提升了非洲农村地区AI系统的实用性与可及性。其对低资源语言农业NLP领域的贡献,为后续多元语言生态下的智能农业工具研发奠定了重要基础。
当前挑战
该数据集面临的核心挑战在于:首先,农业知识具有高度地域特异性,东非不同地区的土壤、气候与作物品种差异显著,通用问答模型难以精准适配局部农情,需平衡数据广度与知识深度。其次,多语言数据构建中,合成翻译的准确性有待验证,方言变体与专业术语(如病虫害名称)的覆盖不足,可能影响模型输出的可靠性。此外,数据集依赖有限公开的农技资源,缺乏实时更新机制,难以应对气候智慧农业中的动态需求,例如病虫害暴发或新型抗旱品种的推荐。最后,模型部署场景如短信交互,受限于字符长度与网络条件,要求响应简洁且上下文完整,对指令微调格式构成额外约束。
常用场景
经典使用场景
该数据集专为东非地区低资源语言下的农业问答任务而构建,其经典应用场景在于训练能够理解并回应多语言农业咨询的智能系统。数据以指令微调格式组织,包含英文、斯瓦希里语、卢旺达语、基库尤语、卢奥语和索马里语等多种语言的问题与答案对,以及经过增强的提示与完整回答。通过与Gemma 4等大型语言模型的结合,该数据集使模型能够自动检测输入语言并以相同语言提供关于作物种植、病虫害防治、土壤管理及灌溉策略等领域的上下文相关建议,从而在农业信息获取渠道匮乏的地区构建智能应答系统。
解决学术问题
该数据集致力于解决低资源非洲语言在农业自然语言处理领域中的结构性数据缺失问题。学术研究中,非英语语种的标注数据集稀缺,尤其是涉及农业专业知识的问答数据更是凤毛麟角,导致多语言模型在这些语言上的表现严重受限。该数据集提供了高质量、结构化且涵盖多重语言的农业指令数据,使研究者能够开展跨语言迁移学习、低资源语言指令微调以及农业知识图谱构建等方向的研究。其意义在于推动了语言多样性在人工智能应用中的平等发展,为非洲数字农业的学术探索奠定了数据基础。
实际应用
在实际应用层面,该数据集赋能了一系列面向东非小农户的农业数字化工具。基于该数据集微调的语言模型可以被集成到短信(SMS)服务平台中,充当农民身边的虚拟农业顾问,实时回答关于选种、施肥、病虫害识别及气候适应性耕作等实际问题。此外,它还驱动了气候智慧型农业决策支持工具的开发,帮助农户在极端干旱或多雨条件下做出更优选择。这类系统尤其适用于网络覆盖有限但移动通信普及的农村地区,显著降低了农业技术推广的门槛,提升了生产效率和粮食安全水平。
数据集最近研究
最新研究方向
该数据集聚焦于利用多语言指令微调技术,填补东非低资源农业语言的NLP数据空白,通过微调Gemma 4模型构建面向小农户的多语言农业问答系统。前沿研究方向包括结合QLoRA实现高效微调、覆盖英语及斯瓦希里语等六种语言的自动问答能力,以及支持SMS式的轻量级农业扩展服务。与此相关的热点事件如AI赋能非洲气候智慧农业和数字乡村建设,该数据集为粮食安全与区域发展提供了可落地的技术基础,推动了多语言AI助农系统的实用化进程。
以上内容由遇见数据集搜集并总结生成



