nor_agriculture_multi_hop_questions_bench
收藏Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/norjordAI/nor_agriculture_multi_hop_questions_bench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'Nor Agriculture Multi Hop Questions Bench',与使用LLM回答挪威农业问题的项目相关。数据集使用YourBench开源框架生成,专注于需要跨不同主题推理的多跳问题,以测试更深层次的理解。数据集包含多个配置,如'chunked'、'ingested'、'multi_hop_questions'、'prepared_lighteval'和'summarized',每个配置都有特定的特征和分割。数据集旨在进一步清理、验证和验证多样性和主题覆盖范围。它还作为使用YourBench生成挪威语领域特定评估数据集的证明概念。
创建时间:
2026-01-08
原始信息汇总
Nor Agriculture Multi Hop Questions Bench 数据集概述
数据集基本信息
- 数据集名称: Nor Agriculture Multi Hop Questions Bench
- 数据集地址: https://huggingface.co/datasets/norjordAI/nor_agriculture_multi_hop_questions_bench
- 项目背景: 该项目与“adapting LLM to answer questions about Norwegian Agriculture”项目相关,旨在生成挪威语农业领域的多跳问题评估数据集。
- 生成工具: 使用 YourBench (v0.9.0) 开源框架从文档集合生成领域特定基准。
- 当前状态: 为个人项目,数据集在引用、多样性及主题覆盖方面仍需进一步清洗、验证和优化。
- 问题类型: 专注于需要跨不同主题建立联系并测试更深层次理解的多跳问题。单跳问题请参考 Nor Agriculture Bench。
数据集配置与结构
数据集包含五个配置,每个配置对应数据处理流水线的不同阶段。
1. ingested 配置
- 描述: 原始文档经过标准化 Markdown 转换后的数据。
- 特征:
document_id(string)document_text(string)document_filename(string)document_metadata(struct): 包含file_size(int64)
- 数据统计:
- 训练集样本数: 3
- 训练集大小: 7,586,679 字节
- 下载大小: 3,984,764 字节
- 数据集大小: 7,586,679 字节
2. summarized 配置
- 描述: 对文档进行了分层摘要(块级摘要与合并阶段摘要)的数据。
- 特征:
document_id(string)document_text(string)document_filename(string)document_metadata(struct): 包含file_size(int64)document_summary(string)summarization_model(string)
- 数据统计:
- 训练集样本数: 3
- 训练集大小: 7,590,185 字节
- 下载大小: 3,991,781 字节
- 数据集大小: 7,590,185 字节
3. chunked 配置
- 描述: 将文本分割为基于令牌的单跳和多跳块的数据。
- 特征:
document_id(string)document_text(string)document_filename(string)document_metadata(struct): 包含file_size(int64)document_summary(string)summarization_model(string)chunks(list): 包含chunk_id(string) 和chunk_text(string)multihop_chunks(list): 包含chunk_ids(list: string) 和chunks_text(list: string)
- 数据统计:
- 训练集样本数: 3
- 训练集大小: 42,176,213 字节
- 下载大小: 18,757,301 字节
- 数据集大小: 42,176,213 字节
4. multi_hop_questions 配置
- 描述: 生成的跨多个块进行推理的多跳问答对数据。
- 特征:
document_id(string)question(string)self_answer(string)generating_model(string)raw_response(string)citations(list: string)source_chunk_ids(list: string)
- 数据统计:
- 训练集样本数: 1,198
- 训练集大小: 7,336,915 字节
- 下载大小: 1,352,711 字节
- 数据集大小: 7,336,915 字节
5. prepared_lighteval 配置
- 描述: 为 LightEval 框架准备的评估数据,包含问题、答案、引用及评分等信息。
- 特征:
question(string)additional_instructions(string)ground_truth_answer(string)gold(list: string)choices(list: null)question_category(string)kind(string)estimated_difficulty(int64)citations(list: string)document_id(string)chunk_ids(list: string)question_generating_model(string)chunks(list: string)document(string)document_summary(string)answer_citation_score(float64)chunk_citation_score(float64)citation_score(float64)
- 数据统计:
- 训练集样本数: 3,295
- 训练集大小: 3,883,568,493 字节
- 下载大小: 2,003,646,866 字节
- 数据集大小: 3,883,568,493 字节
数据处理流水线步骤
- ingestion: 读取原始源文档,将其转换为标准化 Markdown 格式。
- summarization: 执行分层摘要:块级 LLM 摘要,随后进行合并阶段摘要。
- chunking: 将文本分割为基于令牌的单跳和多跳块。
- multi_hop_question_generation: 生成需要跨多个块进行推理的多跳问答对。
- citation_score_filtering: 计算基于重叠的引用分数,并据此过滤问答对。
搜集汇总
数据集介绍

构建方式
在农业知识图谱与自然语言处理交叉领域,挪威农业多跳问题基准数据集通过系统化流程构建而成。原始文档经过规范化处理转化为标准Markdown格式,随后运用层次化摘要技术生成文档与分块摘要。文本分割环节采用基于令牌的切分策略,形成单跳与多跳文本块。多跳问题生成阶段借助特定提示工程,引导语言模型构建需要跨多个文本块推理的问题对,并通过引用评分机制对生成内容进行筛选与过滤,确保问题与答案的关联质量。
特点
该数据集聚焦于挪威农业领域,其核心特征在于强调多跳推理能力。数据集中的问题设计旨在检验模型对分散信息的综合理解,要求连接不同主题或文档片段以得出答案。数据集包含多种配置,如分块文本、摘要文档、多跳问题及其轻量评估格式,提供了从原始资料到评估任务的完整数据链条。引用信息与来源区块标识的保留,为答案可解释性研究提供了支持,体现了领域专业知识与复杂推理评估的结合。
使用方法
该数据集主要用于评估语言模型在特定领域的深度理解与多步推理能力。研究人员可通过加载不同的配置子集,如‘multi_hop_questions’或‘prepared_lighteval’,直接用于模型测试或基准评估。其结构化设计便于与LightEval等评估框架集成,以衡量模型在连接分散农业知识方面的表现。使用者亦可依据提供的管道配置,利用YourBench框架复现或扩展数据集,通过调整提示工程或模型微调来适应特定的研究需求。
背景与挑战
背景概述
挪威农业多跳问题基准数据集诞生于大型语言模型在专业领域应用的探索浪潮中,旨在评估模型对挪威农业知识的深度理解与推理能力。该数据集由个人研究者依托开源框架YourBench构建,核心研究聚焦于生成需要跨文本片段推理的多跳问题,以测试模型在复杂农业主题间的关联分析能力。其创建标志着领域特定评估数据在低资源语言如挪威语中的实践进展,为农业知识问答系统的开发提供了关键基准。
当前挑战
该数据集致力于解决农业领域多跳问答的挑战,即模型需整合分散信息进行连贯推理,这要求超越表层语义捕捉深层逻辑关联。构建过程中,挑战主要体现在确保生成问题的多样性与主题覆盖度,以及引用的准确性与一致性。此外,基于重叠度的引用评分过滤机制需精细调整,以平衡问题质量与数量,而领域专业术语与挪威语的语言特性进一步增加了数据清洗与验证的复杂度。
常用场景
经典使用场景
在农业信息处理领域,多跳推理能力是评估语言模型深度理解的关键指标。Nor Agriculture Multi Hop Questions Bench数据集通过构建涉及挪威农业领域的多跳问题,为研究者提供了一个标准化的评估平台。该数据集典型应用于测试模型在跨文档或跨段落信息中建立逻辑关联的能力,例如从作物种植条件推断市场影响,从而验证模型是否具备综合分析与推理的技能。
解决学术问题
该数据集致力于解决自然语言处理中多跳问答系统的核心挑战,即模型如何有效整合分散信息以完成复杂推理。它针对农业领域专业知识的语义关联问题,提供了标注详尽的问答对与引用来源,助力研究者探索知识检索、证据链构建以及领域自适应等前沿课题。其意义在于推动了专业化评估基准的发展,为多语言、垂直领域的智能系统研发奠定了实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于多跳问答模型的优化与评估框架的创新。研究者利用其结构化的多跳问题与引用标注,开发了基于检索增强生成(RAG)的领域自适应方法,以及针对挪威语的专业语言模型微调策略。这些工作进一步拓展了YourBench框架在垂直领域基准生成中的应用范式,促进了多语言农业智能研究社区的协作与发展。
以上内容由遇见数据集搜集并总结生成



