文档分析数据集|机器学习数据集
收藏库帕思2025-12-22 更新2025-12-27 收录
下载链接:
https://www.kupasai.com/corpus/detail?id=647&type=1
下载链接
链接失效反馈官方服务:
资源简介:
DocBank是一个大规模文档理解数据集,包含50万页文档,分为40万训练、5万验证和5万测试样本。该数据集通过弱监督方法构建,融合文本与布局信息,支持文档结构识别、信息抽取等任务。其规模大、标注成本低,适用于训练需要理解版面与语义的多模态模型,广泛应用于智能文档处理、OCR后处理及学术研究场景。
提供机构:
库帕思
创建时间:
2025-12-18



