five

Silviase/jgov_v1.4_full_ann

收藏
Hugging Face2025-12-07 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Silviase/jgov_v1.4_full_ann
下载链接
链接失效反馈
官方服务:
资源简介:
# e-Gov PDF → Page Images + Text (Silviase/jgov) / + PaddleOCR-VL (Silviase/jgov_v1.4_full_ann) ## 概要 - e-Gov オープンデータの政策評価 PDF をページ画像化したデータセット (Silviase/jgov) と、その画像に PaddleOCR-VL で Markdown OCR を付与したデータセット (Silviase/jgov_v1.4_full_ann)。 - 帳票や表を含む日本語 PDF のレイアウト認識・OCR 評価用途を想定。 ## 出典とライセンス - 出典: e-Gov Open Data Portal <https://data.e-gov.go.jp/> - 利用規約: <https://data.e-gov.go.jp/info/terms> - オリジナル PDF は CC-BY-4.0(出典明記が必要)。本データセットの派生物(レンダリング画像・OCR テキスト)も CC-BY-4.0 を継承し、出典を保持。 - PaddleOCR-VL: Apache-2.0 <https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/LICENSE>(OCR 生成物自体は CC-BY-4.0 の範囲で再配布)。 ## データ内容 - Silviase/jgov - カラム: `image` (datasets.Image), `text` (PDF 埋め込みテキスト; 空の場合あり), `source` (元 PDF パス), `page` (1 始まり) - 画像: 200 DPI, RGB, MuPDF でレンダリング - Silviase/jgov_v1.4_full_ann - カラム: `fname`, `image` (Image), `ocr_text_paddleocrvl` (Markdown), `source="jgov"`, `conversations=[{user, assistant}]` (assistant に OCR 出力) - 件数: 896,725 ページ(1 ページ欠損は除外済み) ## Silviase/jgov の生成手順(PDF → 画像 + テキスト) 1. 取得 - e-Gov CKAN API (`resource_search` → 0 件なら `package_search` にフォールバック) で PDF URL を収集。 - スクリプト: `egov/dl.py`(URL 由来の短ハッシュを付けて保存)。 2. 保存レイアウト - PDF: `data/JpOCR-XL/egov/<year>/*.pdf` - 画像: `data/JpOCR-XL/egov/images/<year>/<pdf_stem>/<pdf_stem>_p0001.png` - HF Datasets 保存: `data/JpOCR-XL/egov/dataset` 3. 変換 - 画像レンダリング: MuPDF (`pymupdf`), 200 DPI, RGB, `_p0001.png` 形式。 - テキスト抽出: `pdfplumber` の text layer(OCR なし; 空もあり)。 4. スキーマ - `image: Image`, `text: string`, `source: string`, `page: int32` 5. コマンド例 ```bash uv run egov/build_hf_dataset.py -v \ --images-root data/JpOCR-XL/egov/images \ --save-dir data/JpOCR-XL/egov \ --push Silviase/jgov \ --spec egov/spec.md ``` - 少量試験: `--limit-files 3 --max-pages 2` - 既存 `--save-dir` があれば再計算せず push のみ。 ## Silviase/jgov_v1.4_full_ann の生成手順(PaddleOCR-VL 付与) 1. 入力: Silviase/jgov の画像列。 2. 画像保存: `fname={pdf_id_md5[:8]}_p{page}.png`(非 ASCII 置換済み)、`/home/maeda-k/jgov_v1.4_full_ann/images/`。 3. OCR: PaddleOCR-VL (`vl_rec_backend=vllm-server`, `vl_rec_server_url=http://127.0.0.1:8080/v1`, `vl_rec_max_concurrency` = ワーカー数)。 4. 後処理: Markdown から inline `style` 属性のみ除去(HTML タグは保持)。 5. JSONL 書き出し: `jgov_paddleocrvl.jsonl` に `fname/image/ocr_text_paddleocrvl/source/conversations`。壊れた画像はスキップ(1 ページ欠損)。 6. Push: ```bash source .env # HF_TOKEN を読み込み uv run python scripts/push_jsonl_to_hub.py \ --jsonl /home/maeda-k/jgov_v1.4_full_ann/jgov_paddleocrvl.jsonl \ --images-dir /home/maeda-k/jgov_v1.4_full_ann \ --repo-id Silviase/jgov_v1.4_full_ann \ --split train \ --num-proc 8 ``` - デバッグ: `--limit 100` で先頭 N 行のみ push。 ## 品質と注意点 - Silviase/jgov: テキストは PDF 埋め込み依存。空や文字化けの可能性あり。 - Silviase/jgov_v1.4_full_ann: OCR は PaddleOCR-VL の生出力(style 削除のみ)。表やレイアウトの崩れはモデル依存。 - 1 ページのみ画像破損で除外済み(合計 896,725 行)。 ## 利用方法 - `datasets.load_dataset("Silviase/jgov", split="train")` - `datasets.load_dataset("Silviase/jgov_v1.4_full_ann", split="train")` - `example["image"]` → `PIL.Image` - `example["ocr_text_paddleocrvl"]` → Markdown - `example["conversations"][0]["assistant"]` → 同内容 ## 引用 - Dataset: `Silviase/jgov_v1.4_full_ann` (Hugging Face Datasets) - Source: e-Gov Open Data Portal (CC-BY-4.0, attribution required)
提供机构:
Silviase
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作