five

Smallholder Farmers Dataset

收藏
github2025-11-03 更新2025-11-06 收录
下载链接:
https://github.com/datakind/datakit-smallholder-farmers-fall-2025
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自WeFarm SMS平台,包含东非小农户在7年间用四种语言(英语、斯瓦希里语、卢干达语和尼昂语)提出的760万+问题、1720万+回复、近20万条农业技巧分享,以及约20%回复的质量评级和用户基本人口统计与农业信息

This dataset is sourced from the WeFarm SMS platform. It contains over 7.6 million questions, over 17.2 million responses, and nearly 200,000 agricultural tips shared by smallholder farmers in East Africa over a 7-year period, in four languages: English, Swahili, Luganda, and Nyankole. Quality ratings for approximately 20% of the responses, as well as basic demographic and agricultural information of the users, are also included.
创建时间:
2025-10-25
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:datakit-smallholder-farmers-fall-2025
  • 数据来源:WeFarm平台(现由Producers Direct管理)
  • 数据覆盖时间:约7年运营期
  • 地理覆盖范围:东非地区

数据内容详情

数据规模

  • 问题总数:超过760万条
  • 回答总数:超过1720万条
  • 农业技巧分享:近20万条
  • 回答质量评级:约20%的回答包含质量评级

语言覆盖

  • 英语
  • 斯瓦希里语
  • 卢干达语
  • 尼昂语

数据类型

  • 农民提问内容
  • 同行回答内容
  • 农业技巧分享
  • 回答质量评级
  • 用户基本人口统计信息
  • 用户农业相关信息

应用目标

  • 支持小农户农场管理
  • 提高农场生产力
  • 增加农户家庭收入
  • 提取有意义的模式和可操作信息

分析挑战方向

  1. 语言翻译:农民对话翻译
  2. 天气与农业模式识别
  3. 季节性分析
  4. 社区领导者识别
  5. 作物特定与非特定问题分析
  6. 金融包容性与生计分析

数据使用说明

  • 数据由DataKind整理为DataKit格式
  • 旨在支持社会公益领域的数据分析
  • 分析结果将用于扩大金融包容性和经济机会领域的影响力
搜集汇总
数据集介绍
main_image_url
构建方式
在农业数字化发展背景下,该数据集源自WeFarm平台长达七年的运营积累,通过短信交互系统采集东非小农户的实时农业咨询数据。构建过程涵盖多语言文本的自动化归档,包含760万条农户提问与1720万条社区回复的原始记录,并同步整合了近20万条农业经验分享与20%回答的质量评级数据。数据采集时还嵌入了用户基础属性与耕作信息的结构化标注,形成覆盖生产全周期的立体化农业知识库。
特点
该数据集的核心价值体现在其真实反映小农户生态的多元维度,覆盖英语、斯瓦希里语等四种语言的原生对话,呈现热带农业特有的作物周期与气候响应模式。数据维度兼具用户社会属性与耕作实践特征,其中质量评级体系为社区知识可信度评估提供基准。时空跨度上持续追踪东非农业区的生产变迁,未经过度清洗的原始对话保留着地域性农业术语的自然表达,为跨语言农业知识挖掘提供独特样本。
使用方法
针对农业决策支持的研究需求,数据集通过模块化挑战任务引导分析流程,包括气候模式识别、作物周期建模等五大研究方向。使用者可依托多语言翻译预处理技术解构文本语义,结合社区网络分析定位关键信息节点。分析过程中鼓励采用生成式AI工具辅助可视化与模式发现,但需保持人类专家对农业领域知识的最终校验。所有衍生见解将通过标准化管道提交至Producers Direct机构,直接支撑小农户生计改善的实践决策。
背景与挑战
背景概述
在数字农业创新浪潮中,Smallholder Farmers Dataset作为2022年由Producers Direct整合WeFarm遗留数据构建的重要资源,承载着东非小农群体七年间通过短信平台积累的农业知识交换记录。该数据集涵盖760万条跨语言农事咨询、1720万条社区响应及近20万条耕作经验分享,其核心价值在于通过分析农户间的互助行为,揭示提升生产效益与家庭收入的关键路径,为全球小农经济研究提供了前所未有的微观实证基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,需从多语言非结构化对话中提取有效农业知识模式,解决小农生产决策中的气候适应、作物周期管理等复杂问题;在构建过程中,原始数据存在语言多样性(英语、斯瓦希里语等)、响应质量标注不完整、用户背景信息稀疏等障碍,要求开发兼顾文化语境与农业专业性的自然语言处理框架。
常用场景
经典使用场景
在农业信息科学领域,该数据集通过760万条多语言农事问答记录,为研究小农生产行为模式提供了独特视角。其经典应用体现在分析农民提出的作物管理、病虫害防治等实际问题,结合17.2百万条社区反馈构建知识图谱,揭示传统农业经验与现代农艺技术的融合路径。
实际应用
在实际应用层面,该数据支撑的决策模型正被用于优化东非地区的农业推广服务。基于社区互动特征开发的预警系统,可及时识别作物病害传播规律;而多语言问答分析则助力构建适应当地语境的智能农技咨询平台,显著提升技术普及效率。
衍生相关工作
该数据集催生了多项创新研究,包括基于社交网络分析的农户影响力评估框架,以及跨语言农业知识抽取模型。其衍生的时序数据分析方法被应用于预测区域作物产量波动,而社区领袖识别算法则发展为农业合作社数字化管理的重要工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作