five

DocBank 文本数据集

收藏
超神经2024-07-17 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/21605
下载链接
链接失效反馈
官方服务:
资源简介:
DocBank 是一个文本数据集。数据集包含 50 万个细粒度、词条级别标注的文档页面,用于文档布局分析。数据集使用一种简单而有效的方式构建,有 arXiv.com 上提供的 \LaTeX{} 文档的弱监督。

DocBank is a textual dataset. It contains 500,000 fine-grained, token-level annotated document pages for document layout analysis. The dataset is constructed in a simple yet effective manner, leveraging weak supervision from LaTeX documents available on arXiv.com.
创建时间:
2022-10-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DocBank是一个包含50万个词条级别标注文档页面的文本数据集,用于文档布局分析,通过arXiv.com的LaTeX文档弱监督构建,总大小为48.1 GB。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务