BeejX-Agriculture-Dataset

Hugging Face2025-12-20 更新2025-12-21 收录

下载链接：

https://huggingface.co/datasets/bf369/BeejX-Agriculture-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含专门为印度农业定制的监督微调（SFT）数据，旨在训练AI模型（如Gemma、Llama）以印地语（天城文）、Hinglish（罗马印地语）和英语回答农民的查询。数据集采用.jsonl格式，遵循Unsloth和Hugging Face支持的ChatML标准。示例数据展示了用户询问小麦病害及AI助手提供解决方案的对话。数据集适用于文本生成、问答和对话任务，涵盖农业、耕作、印度等主题。

创建时间：

2025-12-18

原始信息汇总

BeejX: 印度农业监督微调数据集

数据集概述

BeejX是一个专门为印度农业领域构建的监督微调数据集，旨在训练AI模型（如Gemma、Llama）以回答农民用印地语（天城文）、印度英语（罗马化印地语）和英语提出的查询。

数据集详情

许可证: MIT
语言: 印地语 (hi)、英语 (en)、印度英语 (hinglish)
任务类别: 文本生成、问答、对话
标签: 农业、耕作、印度、农民、监督微调、Unsloth、Gemma
规模类别: 1K < 样本数 < 10K

数据集结构

格式: .jsonl 文件，遵循ChatML标准结构，与Unsloth和Hugging Face兼容。
特征:
- messages: 一个列表，包含以下字段的对象：
  - role: 角色（字符串类型）
  - content: 内容（字符串类型）
  - role_: 角色（字符串类型）
数据划分:
- train（训练集）:
  - 样本数量: 1005
  - 数据集大小: 706792 字节
  - 下载大小: 303430 字节

数据示例

json { "messages": [ { "role": "user", "content": "Meri gehu ki fasal me peele dhabbe dikh rahe hain, kya karu?" }, { "role": "assistant", "content": "गेहूं में पीलापन यलो रस्ट (Yellow Rust) या नाइट्रोजन की कमी हो सकती है।\nउपाय:\n1. यदि पत्तों पर पाउडर जैसा है, तो प्रोपिकोनाजोल (Propiconazole) का छिड़काव करें।\n2. यदि पौधा कमजोर है, तो यूरिया का प्रयोग करें。" } ] }

免责声明与用途

此数据集为教育和研究目的而创建，旨在帮助印度农民。其中提及的医疗或化学剂量在实地应用前，应咨询农业专家进行核实。

致谢

由Bhashkar Fulara为BeejX项目整理。

搜集汇总

数据集介绍

构建方式

在农业知识智能化领域，BeejX-Agriculture-Dataset的构建聚焦于印度农业实践中的实际需求。该数据集通过精心收集与整理印度农民在作物种植、病虫害防治等方面的常见咨询问题，并邀请农业专家提供科学、实用的解答，形成了结构化的对话数据。每条数据均遵循ChatML格式，以用户提问与助手回复的对话形式呈现，确保了数据在监督式微调任务中的直接可用性。数据覆盖了英语、印地语及印地英语混合语，旨在精准服务于多语言农业咨询场景。

使用方法

研究人员与开发者可将此数据集直接应用于大型语言模型的监督式微调任务，以构建专注于农业问答的AI助手。使用前，需加载其.jsonl格式文件，并按照ChatML结构解析‘messages’字段中的用户提问与助手回复对。该数据兼容如Unsloth等高效微调库，能够便捷地融入训练流程，旨在优化模型对多语言农业咨询的理解与生成能力。值得注意的是，数据中涉及的农业操作建议仅供参考，实际应用前应咨询当地农业专家进行核实。

背景与挑战

背景概述

随着人工智能技术在农业领域的深入应用，针对特定地区与语言的农业问答数据集成为推动精准农业发展的关键。BeejX-Agriculture-Dataset由Bhashkar Fulara及其团队于近年创建，专注于印度农业场景，旨在通过监督微调技术训练AI模型，以回应农民使用印地语、印度英语及混合语言提出的种植管理、病虫害防治等实际问题。该数据集不仅体现了农业知识本地化与数字化的融合趋势，也为提升小农户的决策支持能力提供了数据基础，对推动南亚地区智慧农业研究具有显著影响力。

当前挑战

该数据集致力于解决印度农业领域多语言农民咨询的自动化应答挑战，其核心难点在于准确理解混杂语言表述的农业问题，并提供符合地域农业实践的科学建议。在构建过程中，挑战主要集中于农业专业知识的标准化整理、多语言文本的语义对齐，以及确保建议的时效性与安全性，避免因模型输出不当导致实际种植风险。

常用场景

经典使用场景

在农业智能化的浪潮中，BeejX-Agriculture-Dataset作为专门针对印度农业的监督微调数据集，其经典使用场景聚焦于训练大型语言模型以理解和回应农民的多语言农业咨询。该数据集通过模拟真实对话结构，使模型能够处理涉及作物病害、施肥管理及种植技术等领域的复杂查询，为开发面向小农户的AI助手提供了核心训练素材，有效促进了农业知识的数字化传播。

解决学术问题

该数据集直接回应了农业人工智能领域的关键挑战：如何构建跨语言、适应本土化农业知识的高质量指令微调数据。它系统性地解决了低资源语言（如印地语和Hinglish）在农业文本生成任务中数据稀缺的难题，同时为研究跨文化语境下的领域自适应、少样本学习及对话系统评估提供了标准化基准，推动了计算语言学与农业信息学的交叉融合。

实际应用

在实际应用层面，基于该数据集训练的模型可部署于移动应用或语音助手平台，为印度农民提供即时、本土化的农业决策支持。例如，农民可通过自然语言描述作物异常症状，系统则依据训练数据生成诊断建议与防治方案，辅助降低生产风险。这种技术赋能有助于弥合数字鸿沟，提升农业服务的可及性与精准性。

数据集最近研究