five

DocBank

收藏
arXiv2020-11-11 更新2024-06-21 收录
下载链接:
https://github.com/doc-analysis/DocBank
下载链接
链接失效反馈
官方服务:
资源简介:
DocBank是由微软亚洲研究院创建的一个大规模文档布局分析数据集,包含500,000个文档页,具有细粒度的token级标注。该数据集通过弱监督方法从arXiv.com上的LATEX文档构建,支持自然语言处理和计算机视觉模型的公平比较。DocBank旨在解决文档布局分析中视觉和文本信息整合的问题,通过提供高质量的标注数据,推动多模态方法的发展,从而提升文档布局分析的性能。

DocBank is a large-scale document layout analysis dataset created by Microsoft Research Asia. It consists of 500,000 document pages with fine-grained token-level annotations. This dataset is constructed from LaTeX documents sourced from arXiv.com through weak supervision techniques, and enables fair benchmark comparisons between natural language processing (NLP) and computer vision (CV) models. DocBank is designed to address the challenge of integrating visual and textual information in document layout analysis. By offering high-quality annotated data, it promotes the development of multimodal approaches to advance the performance of document layout analysis tasks.
提供机构:
微软亚洲研究院
创建时间:
2020-06-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作