DAGRI Dataset DryRun

github2026-03-12 更新2026-03-13 收录

下载链接：

https://github.com/ntcir-dagri/DAGRI-Dataset-DryRun

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库提供DAGRI各子任务使用的Dry Run数据，旨在促进农业领域知识的数字化和知识传递。DAGRI任务包括三个子任务：表格信息抽取（从不同格式的农业经营指标文档中提取信息并结构化）、多表多跳问答（基于农业文档中的多个表格数据回答农作业相关问题）以及图表问答（回答包含复杂图表和领域特定表达的文档内容相关问题）。

This repository provides the Dry Run datasets used for each subtask of DAGRI, aiming to promote the digitalization and knowledge dissemination of agricultural domain knowledge. The DAGRI task includes three subtasks: Table Information Extraction (extract and structure information from agricultural operation indicator documents in various formats), Multi-table Multi-hop Question Answering (answer questions related to agricultural operations based on multiple tabular data from agricultural documents), and Chart-based Question Answering (answer questions about document content containing complex charts and domain-specific expressions).

创建时间：

2026-03-05

原始信息汇总

DAGRI Dataset DryRun 数据集概述

数据集简介

DAGRI Dataset DryRun 是一个为 DAGRI（Data Analytics for aGRicultural Information）任务提供的 Dry Run 用数据集合。该任务旨在促进农业领域知识的数字化和知识传播，专注于解析包含图表等复杂数据表示的农业领域文档。

任务构成

数据集服务于 DAGRI 任务的三个子任务：

Subtask 1: Table IE
- 任务描述：从格式各异的日本各都道府县农业经营指标相关文档中，抽取经营类型与经营指标信息，并将其结构化到统一格式中。
Subtask 2: Multi-Table Multi-Hop QA
- 任务描述：基于农业领域文档中的多个表格数据，回答关于农业作业的问题。
Subtask 3: FiT-QA (Figures and Tables Question Answering)
- 任务描述：回答针对包含复杂布局的图表及领域特有表达的文档内容所提出的问题。

相关信息

关于任务参与方法及详细说明，请参考：https://sites.google.com/view/dagri/home-ja

搜集汇总

数据集介绍

构建方式

在农业信息数字化进程中，DAGRI Dataset DryRun的构建聚焦于解析包含复杂数据表达的农业文档。该数据集通过整合日本各都道府县的农业经营指标文档，提取经营类型与指标信息，并统一结构化格式，形成了涵盖表格信息抽取、多表多跳问答及图文问答三个子任务的测试数据。其构建过程强调对农业领域特有表达和复杂布局的模拟，旨在为参与者提供贴近实际应用场景的预演环境。

特点

DAGRI Dataset DryRun的核心特点在于其多任务协同的设计架构，覆盖了农业文档分析中的关键挑战。数据集不仅包含格式各异的表格数据，还融入了图表混合布局的复杂文档，体现了农业领域知识表达的多样性。每个子任务针对不同的信息处理需求，从结构化抽取到跨文档推理，再到视觉与文本结合的问答，全面评估模型在真实农业信息处理场景中的适应能力。

使用方法

使用该数据集时，参与者需依据官方指南访问任务主页获取详细说明。数据集适用于三个独立的子任务：表格信息抽取要求从异构文档中提取并结构化关键指标；多表多跳问答需基于多个表格数据进行推理回答；图文问答则涉及对复杂布局文档中图表与文本的综合理解。用户可通过提供的DryRun数据熟悉任务格式与评估标准，为正式参与农业信息分析挑战奠定基础。

背景与挑战

背景概述

DAGRI数据集于近年由专注于农业信息学的研究团队创建，旨在推动农业领域知识的数字化与传承。该数据集聚焦于解析包含复杂数据表现形式如表格与图表的农业文档，其核心研究问题在于如何从异构的农业信息源中精准提取并结构化关键经营指标，以及实现基于多模态数据的智能问答。这一工作对农业信息化与精准决策支持系统的构建具有显著影响力，标志着农业自然语言处理向深层次知识挖掘迈进。

当前挑战

DAGRI数据集致力于解决农业文档中复杂信息抽取与多跳推理问答的挑战，其难点在于处理格式不统一的表格数据、整合跨文档的多模态信息以及理解领域特有的专业表述。在构建过程中，团队需克服农业术语标准化不足、图表与文本语义对齐困难以及高质量标注数据稀缺等障碍，这些因素共同构成了数据集开发与应用的核心瓶颈。

常用场景

经典使用场景

在农业信息数字化领域，DAGRI Dataset DryRun 的经典使用场景聚焦于处理农业文档中的复杂数据表示。该数据集通过三个子任务，系统性地支持从表格信息抽取到多表多跳问答，再到图文混合问答的全流程研究。研究者可借助其提供的干运行数据，模拟农业经营指标文档的解析过程，统一异构表格格式，并基于多模态内容回答农作业相关问题，为农业知识的结构化与自动化分析奠定实验基础。

解决学术问题

DAGRI Dataset DryRun 致力于解决农业文档智能解析中的核心学术问题。它针对农业领域特有的图表混合、格式多样、知识分散等挑战，提供了标准化的评估框架。通过子任务设计，该数据集有效促进了信息抽取、多源推理和跨模态理解等研究方向的发展，帮助学术界建立农业文本与数据关联的基准，推动了领域自适应自然语言处理技术的进步，对农业知识图谱的构建与数字化传承具有深远意义。

衍生相关工作

围绕 DAGRI Dataset DryRun，已衍生出一系列经典研究工作。这些工作主要集中在跨模态预训练模型适配、农业领域实体关系抽取、以及多跳推理机制的优化等方面。部分研究通过引入领域词典和视觉特征融合，提升了图表问答的准确性；另一些则专注于设计针对农业表格的专用解析器，推动了结构化信息抽取技术在垂直领域的深化应用，为后续农业人工智能系统的开发提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集