five

ScanBank

收藏
arXiv2021-06-23 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.4663578
下载链接
链接失效反馈
官方服务:
资源简介:
ScanBank数据集是由弗吉尼亚理工学院与州立大学的研究人员创建,旨在解决从扫描的电子学位论文和论文中提取图表的技术挑战。该数据集包含10,000个扫描页面图像,每个图像均由人工标注,确认其中包含的3,300个图表或表格。数据集的创建过程涉及从MIT的DSpace存储库下载PDF和元数据,随机抽样并手动标注图像。ScanBank数据集的应用领域包括提高学术作品的计算访问性,如语义解析、搜索和摘要,以及构建大型数字图书馆的搜索界面。

The ScanBank dataset was developed by researchers at Virginia Polytechnic Institute and State University to address the technical challenge of extracting figures and tables from scanned electronic theses and dissertations. It contains 10,000 scanned page images, each manually annotated to confirm the 3,300 figures or tables present in the corresponding pages. The dataset construction process involved downloading PDFs and metadata from MIT’s DSpace repository, followed by random sampling and manual annotation of the selected images. The application areas of the ScanBank dataset include enhancing the computational accessibility of academic works, such as semantic parsing, search and summarization, as well as building search interfaces for large-scale digital libraries.
提供机构:
弗吉尼亚理工学院与州立大学
创建时间:
2021-06-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作