five

PubMed, Chn

收藏
arXiv2020-03-30 更新2024-06-21 收录
下载链接:
https://github.com/kailigo/cddod
下载链接
链接失效反馈
官方服务:
资源简介:
本研究建立了跨领域文档对象检测的基准套件,包含不同类型的PDF文档数据集,如PubMed和Chn。PubMed数据集是从医学期刊文章中提取的,包含超过360万对象实例的标注,涵盖文本、标题、列表、表格和图形等5个类别。Chn数据集是通过爬取中文维基百科页面并转换成带有边界框标注的PDF文件生成的,其布局和样式参数根据真实文档统计随机抽样。这些数据集不仅提供了页面图像和边界框标注,还包括原始PDF文件和PDF渲染层,用于模型训练和评估。数据集的应用领域主要集中在智能文档编辑和理解,旨在解决文档对象在布局、大小、宽高比、纹理等方面的显著变化问题。
提供机构:
东北大学, Adobe研究院, Adobe文档云
创建时间:
2020-03-30
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作