five

Ameurr/BoundingDocs

收藏
Hugging Face2025-12-15 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Ameurr/BoundingDocs
下载链接
链接失效反馈
官方服务:
资源简介:
BoundingDocs是一个用于文档问答(QA)的统一数据集,包含空间注释。它整合了多个来自文档AI和视觉丰富文档理解(VRDU)领域的公共数据集,并将信息提取(IE)任务重新表述为QA任务,使其成为训练和评估大型语言模型(LLMs)的宝贵资源。每个问答对都通过边界框与其在文档中的位置相关联,增强了布局理解并减少了模型输出中的幻觉风险。数据集支持多种语言,包括英语、意大利语、西班牙语、法语、德语、葡萄牙语、日语和中文。

BoundingDocs is a unified dataset for Document Question Answering (QA) that includes spatial annotations. It consolidates multiple public datasets from Document AI and Visually Rich Document Understanding (VRDU) domains. The dataset reformulates Information Extraction (IE) tasks into QA tasks, making it a valuable resource for training and evaluating Large Language Models (LLMs). Each question-answer pair is linked to its location in the document via bounding boxes, enhancing layout understanding and reducing hallucination risks in model outputs. The dataset supports multiple languages including English, Italian, Spanish, French, German, Portuguese, Chinese, and Japanese.
提供机构:
Ameurr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作