five

Silviase/jgov

收藏
Hugging Face2025-09-21 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/Silviase/jgov
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从e-Gov Open Data portal获取的PDF文件,并将其页面图像化和文本提取后的数据。数据集以Hugging Face Datasets格式组织,每个PDF文件都被转换成页面图像和对应的文本。页面图像使用MuPDF库以200 DPI的分辨率渲染,文本则是直接从PDF的文本层提取,没有进行OCR识别。

This dataset contains page-level renders and extracted (non-OCR) text from PDFs published on the e-Gov Open Data portal. Each PDF is converted into page images and corresponding text, organized in the Hugging Face Datasets format. The page images are rendered at 200 DPI using the MuPDF library, and the text is extracted directly from the PDFs text layer without OCR.
提供机构:
Silviase
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作