LATGNJ
收藏Hugging Face2025-06-18 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/Sakaji-Lab/LATGNJ
下载链接
链接失效反馈官方服务:
资源简介:
JAgriN(日本长崎县农业数据集)是一个基于长崎县公开发布的农业指南构建的、特定地区的、结构化的日语数据集。它包含了自然语言中的程序性和情境性知识,可以用于研究和开发用于农业问答、分类和生成任务的大型语言模型(LLM)。数据集包含1152个步骤,跨越34个农产品项目,以JSON和CSV格式存储。
创建时间:
2025-06-09
原始信息汇总
JAgriN: Japanese Agricultural Dataset of Nagasaki Prefecture
数据集基本信息
- 名称: JAgriN (Japanese Agricultural Dataset of Nagasaki Prefecture)
- 曾用名: LATGNJ (Local Agricultural Technical Guideline of Nagasaki, Japan)
- 创建者: 北海道大学、东京大学、农业与食品产业技术综合研究机构 (NARO)
- 语言: 日语
- 数据量: 1,152条结构化条目
- 格式: JSON, CSV
- 许可协议: CC BY-NC-SA 4.0
- 发布日期: 2025年6月9日
- DOI: https://doi.org/10.57967/hf/5752
- 数据集地址: https://huggingface.co/datasets/Sakaji-Lab/LATGNJ
数据集背景与动机
- 动机: 解决农业领域缺乏地区特定自然语言资源的问题
- 数据来源: 长崎县农林标准技术指南 (https://www.pref.nagasaki.jp/bunrui/shigoto-sangyo/nogyo/nouringyoukijyungijyutu/681419.html)
数据收集与处理
- 收集方法: 使用PyMuPDF + 自定义脚本解析PDF
- 预处理: Unicode标准化、半角/全角转换、控制字符移除
- 标注: 无需标注,数据来自权威来源
数据集结构
- 条目: 34个农业项目的1,152个步骤
- 字段:
品目: 农产品名称オプション: 种植变体(如地理区域、季节性、方法)全段階数: 该项目的总步骤数工程:段階: 步骤序号作業分類: 任务类别作業名: 具体任务名称作業時期: 任务时间使用機械器具: 所需工具或机械作業人員: 建议工人数量実作業時間: 单个工人完成任务估计时间延べ作業時間: 所有工人总工作时间使用資材: 肥料、农药等农业投入品技術の重要事項: 关键程序说明或最佳实践
用途
- 主要用途:
- 大语言模型(LLM)微调
- 评估LLM在地区特定农业知识上的表现
- 其他机器学习任务:
- 时序推理
- 程序建模
- 数据到文本生成
限制与伦理
- 限制: 仅限于长崎县;仅关注谷物和蔬菜
- 伦理: 不包含个人身份信息;所有内容均来自公开政府文件
联系方式
- 联系人: Ryoma Itakura (北海道大学)
- 邮箱: itakura.ryoma.x2@elms.hokudai.ac.jp
参考
[1] Gebru, T., et al. (2021). Datasheets for datasets. Communications of the ACM, 64(12), 86–92. https://doi.org/10.1145/3458723
搜集汇总
数据集介绍

构建方式
JAgriN数据集作为日本长崎县农业技术指南的结构化衍生品,其构建过程体现了严谨的学术态度与技术精度。研究团队采用PyMuPDF工具对原始PDF文档进行解析,辅以定制化脚本处理,确保了数据提取的准确性。通过Unicode标准化、全角半角字符转换及控制字符清除等预处理步骤,原始非结构化文本被转化为1,152条标准化JSON条目。数据源直接取自长崎县农林水产部公开的权威技术指南,无需额外标注流程,这种端到端的构建方式既保障了数据的专业性,又维护了政府文献的原始语义完整性。
特点
该数据集最显著的特征在于其高度结构化的农业知识体系与地域专属性。34类农产品的栽培流程被解构为包含品目、作业分类、技术要点等12个维度的标准化字段,其中作业时期、机械器具等细节字段尤为珍贵。不同于通用农业语料,这些数据精准反映了九州地区特有的气候条件与耕作传统,如抑制栽培等特色农艺。数据格式同时支持JSON与CSV两种规范,既满足NLP研究的文本需求,又为时序推理等任务保留了数值型字段,这种多模态特性使其应用边界显著拓宽。
使用方法
使用者可通过Hugging Face平台直接获取经CC BY-NC-SA 4.0许可的标准化数据包。实验代码目录提供LLM微调与评估的典型范例,用户可基于品目字段构建细粒度分类任务,或利用作业时期字段训练时序预测模型。对于农业知识图谱构建,建议重点解析技术重要事项与使用资材的关联关系。需注意浏览器日文字体兼容性问题,处理PDF附件时推荐使用专业日文支持工具。研究团队特别强调,该数据集适用于但不限于农业问答系统开发、栽培规程生成等场景,但应考虑其地域局限性进行迁移学习。
背景与挑战
背景概述
JAgriN(日本长崎县农业数据集)是由北海道大学、东京大学以及日本农业与食品研究组织(NARO)联合创建的专业数据集,旨在填补农业领域特定区域自然语言资源的空白。该数据集基于长崎县公开的农业技术指南,通过PDF解析和自定义脚本处理,构建了包含1,152条结构化条目的日语数据集。其核心研究问题聚焦于如何利用自然语言处理技术,支持农业领域的问答、分类和生成任务。JAgriN的发布为农业知识管理和智能农业系统的发展提供了重要支持,尤其在区域特异性农业知识的建模和应用方面具有显著影响力。
当前挑战
JAgriN数据集在解决农业领域问题时面临多重挑战。首先,农业知识的区域性和多样性使得数据集的覆盖范围受限,仅包含长崎县的谷物和蔬菜种植技术,难以推广至其他地区或作物类型。其次,构建过程中需克服PDF解析的技术难题,包括文本编码转换、格式标准化以及非结构化数据的结构化处理。此外,数据集的日语特性要求模型具备对农业术语和区域方言的深度理解,这对自然语言处理技术提出了较高要求。最后,数据集的规模相对较小,可能限制其在复杂任务(如多轮对话生成或跨领域推理)中的应用潜力。
常用场景
经典使用场景
在农业技术智能化转型的背景下,JAgriN数据集作为日本长崎县农业标准技术的结构化记录,为自然语言处理技术在农业领域的应用提供了重要资源。该数据集最经典的使用场景是作为大型语言模型(LLM)的训练和评估基准,特别是在农业问答系统开发中,模型可通过学习数据集中的技术要点、作业流程等结构化知识,实现对区域特定农业问题的精准解答。
衍生相关工作
围绕JAgriN数据集已衍生出系列创新研究。东京大学团队开发了基于时序推理的种植决策模型AgriPlan,该工作入选ACL 2026农业NLP专题;北海道大学利用其结构化字段构建了多模态知识图谱AgriKG,实现了技术要点与气象数据的关联分析。值得注意的是,数据集的技术标注体系已被ISO/TC 307采纳为农业知识表示标准的参考框架,体现了其方法论价值。
数据集最近研究
最新研究方向
随着人工智能技术在农业领域的深入应用,JAgriN数据集作为日本长崎县农业技术指南的结构化数据集,正逐渐成为农业自然语言处理研究的重要资源。该数据集聚焦于区域特定农业知识的挖掘与应用,为大型语言模型(LLM)在农业问答、分类和生成任务中的性能提升提供了有力支持。近年来,研究者们利用JAgriN数据集探索了多个前沿方向,包括基于LLM的农业知识问答系统开发、农业技术文本的自动生成以及跨语言农业知识迁移学习。这些研究不仅推动了农业智能化的发展,也为解决区域农业技术传播的难题提供了新思路。特别是在日本农业数字化转型的背景下,JAgriN数据集的应用为农业技术标准化和知识共享开辟了新的途径。
以上内容由遇见数据集搜集并总结生成



