five

Quivr/OmniDocBench

收藏
Hugging Face2025-01-28 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Quivr/OmniDocBench
下载链接
链接失效反馈
官方服务:
资源简介:
OmniDocBench 是一个用于评估真实场景中多样化文档解析的基准数据集。该数据集包括各种文档类型、布局和语言,并对块级和跨度级文档元素进行丰富的注释。它还包括一个评估代码套件,用于端到端和单一模块的评估。数据集以 JSON 格式提供,并包括用于评估的相应图像和 PDF。README 还包括使用 Python 工具对数据集进行过滤和分层采样的说明。

OmniDocBench is a benchmark for diverse document parsing in real-world scenarios, with various document types, layouts, and languages, rich annotations for block-level and span-level document elements, and an evaluation code suite for end-to-end and single module evaluations. The dataset is available in JSON format and includes corresponding images and PDFs for evaluation. The README also includes instructions for using a Python tool for filtering and stratified sampling on the dataset.
提供机构:
Quivr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作