dude-qa

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/AHS-uni/dude-qa

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题、文档、证据和答案的结构化数据集，适用于文本理解和问答系统。数据集中的问题分为不同的类型，如提取式、验证式、计数、算术等。文档类型包括法律、金融、科学等。证据来源可以是文本跨度、表格、图表等。答案可以是可回答的、不可回答的或无答案。数据集分为训练集、验证集和测试集，用于模型训练和评估。

创建时间：

2025-05-26

原始信息汇总

数据集概述

基本信息

数据集名称: dude-qa
存储位置: https://huggingface.co/datasets/AHS-uni/dude-qa
下载大小: 8,635,011 字节
数据集大小: 17,765,921 字节

数据集结构

特征

id: 字符串类型，唯一标识符。
question: 结构体，包含以下字段：
- id: 字符串类型。
- text: 字符串类型。
- type: 分类标签，包括：
  - extractive
  - verification
  - counting
  - arithmetic
  - abstractive
  - procedural
  - reasoning
  - other
- tags: 列表，包含：
  - name: 分类标签（missing, low_quality, inferred, predicted）。
  - target: 字符串类型。
  - comment: 字符串类型。
document: 结构体，包含以下字段：
- id: 字符串类型。
- type: 分类标签，包括：
  - legal
  - financial
  - scientific
  - technical
  - policy
  - correspondence
  - marketing
  - personal_record
  - news
  - other
- num_pages: 整数类型。
- tags: 列表，同 question 的 tags。
evidence: 结构体，包含以下字段：
- pages: 整数序列。
- sources: 分类标签序列，包括：
  - span
  - table
  - chart
  - image
  - layout
  - none
  - other
- tags: 列表，同 question 的 tags。
answer: 结构体，包含以下字段：
- type: 分类标签（answerable, not_answerable, none）。
- variants: 字符串序列。
- rationale: 字符串类型。
- format: 分类标签，包括：
  - string
  - reference
  - integer
  - float
  - boolean
  - list
  - other
  - none
- tags: 列表，同 question 的 tags。
tags: 列表，同 question 的 tags。

数据划分

train: 23,736 个样本，10,512,240 字节。
val: 6,318 个样本，2,785,101 字节。
test: 11,402 个样本，4,468,580 字节。

配置

默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/val-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在文档问答研究领域，dude-qa数据集通过系统化采集多源文档构建而成，涵盖法律、金融、科学等九种专业文档类型。数据构建过程采用结构化标注框架，对每个问题标注其类型分布和证据来源，同时通过多维度标签体系记录数据质量信息。该数据集包含训练集23592例、验证集6298例和测试集11402例，总规模达30234594字节，形成了层次分明的评估体系。

特点

dude-qa数据集的核心特征体现在其细粒度的问题分类体系，将问题划分为提取型、验证型、计数型等八种认知层次。文档类型覆盖从法律文书到个人记录的广泛领域，证据标注精确到页面级并区分文本、表格、图表等六种来源形式。答案系统支持多种返回格式和可回答性判断，配合四类质量标签机制，为复杂文档理解任务提供了丰富的元数据支撑。

使用方法

研究者可通过HuggingFace平台直接加载dude-qa数据集，利用其预设的训练、验证、测试分割开展端到端实验。该数据集支持文档问答模型的多角度评估，包括不同问题类型的解决能力、跨文档类型的泛化性能以及证据定位的准确性。开发者可基于答案格式分类设计特定输出模块，借助质量标签实现数据过滤，推动面向真实场景的文档智能处理技术发展。

背景与挑战

背景概述

文档理解问答（Document Understanding Question Answering）作为自然语言处理领域的重要分支，旨在通过机器智能解析复杂文档并回答用户提问。dude-qa数据集由专业研究团队于近年构建，聚焦于多模态文档的智能问答任务，涵盖法律、金融、科学等九类专业文档类型。该数据集通过精细标注的问题类型与答案格式，推动了文档级语义理解技术的发展，为智能办公系统和专业领域知识库的构建提供了关键数据支撑。

当前挑战

该数据集面临的核心挑战在于处理专业领域文档的语义复杂性，例如法律条文的多义性解读和科技文献的术语理解。构建过程中需克服多模态证据融合的难题，包括文本段落、表格数据与图表信息的协同标注。同时，问题类型的多样性要求标注者具备跨领域知识，而答案格式的严格规范又需保持标注一致性，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在文档问答系统研究中，dude-qa数据集凭借其丰富的多类型文档和结构化问题设计，成为评估模型理解复杂文本能力的经典基准。该数据集覆盖法律、金融、科学等九大领域，问题类型包括抽取式、验证式、推理式等八种，能够全面测试模型在不同场景下的表现。研究者通常利用该数据集训练和验证模型在长文档理解、多步骤推理以及跨领域知识整合方面的性能，为文档智能处理提供重要支撑。

实际应用

在实际应用层面，dude-qa数据集为构建专业领域的智能问答系统提供了重要训练资源。在法律文档分析、金融报告解读、科技文献检索等场景中，基于该数据集训练的模型能够快速定位关键信息并生成准确回答。这种能力显著提升了专业文档的处理效率，为企业知识管理、学术研究辅助等实际需求提供了可靠的技术解决方案。

衍生相关工作

围绕dude-qa数据集已衍生出多项重要研究工作，特别是在长文档理解和多跳推理模型领域。研究者基于该数据集开发了多种先进的神经网络架构，如层次化注意力机制和证据链追踪算法。这些工作不仅提升了文档问答的技术水平，还为相关领域如机器阅读理解和知识图谱构建提供了新的方法论启示，形成了良性的学术发展生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集