Silviase/jgov_v1.4_full_ann

Name: Silviase/jgov_v1.4_full_ann
Creator: Silviase
Published: 2025-12-07 14:28:39
License: 暂无描述

Hugging Face2025-12-07 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/Silviase/jgov_v1.4_full_ann

下载链接

链接失效反馈

官方服务：

资源简介：

# e-Gov PDF → Page Images + Text (Silviase/jgov) / + PaddleOCR-VL (Silviase/jgov_v1.4_full_ann) ## 概要 - e-Gov オープンデータの政策評価 PDF をページ画像化したデータセット (Silviase/jgov) と、その画像に PaddleOCR-VL で Markdown OCR を付与したデータセット (Silviase/jgov_v1.4_full_ann)。 - 帳票や表を含む日本語 PDF のレイアウト認識・OCR 評価用途を想定。 ## 出典とライセンス - 出典: e-Gov Open Data Portal <https://data.e-gov.go.jp/> - 利用規約: <https://data.e-gov.go.jp/info/terms> - オリジナル PDF は CC-BY-4.0（出典明記が必要）。本データセットの派生物（レンダリング画像・OCR テキスト）も CC-BY-4.0 を継承し、出典を保持。 - PaddleOCR-VL: Apache-2.0 <https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/LICENSE>（OCR 生成物自体は CC-BY-4.0 の範囲で再配布）。 ## データ内容 - Silviase/jgov - カラム: `image` (datasets.Image), `text` (PDF 埋め込みテキスト; 空の場合あり), `source` (元 PDF パス), `page` (1 始まり) - 画像: 200 DPI, RGB, MuPDF でレンダリング - Silviase/jgov_v1.4_full_ann - カラム: `fname`, `image` (Image), `ocr_text_paddleocrvl` (Markdown), `source="jgov"`, `conversations=[{user, assistant}]` (assistant に OCR 出力) - 件数: 896,725 ページ（1 ページ欠損は除外済み） ## Silviase/jgov の生成手順（PDF → 画像 + テキスト） 1. 取得 - e-Gov CKAN API (`resource_search` → 0 件なら `package_search` にフォールバック) で PDF URL を収集。 - スクリプト: `egov/dl.py`（URL 由来の短ハッシュを付けて保存）。 2. 保存レイアウト - PDF: `data/JpOCR-XL/egov/<year>/*.pdf` - 画像: `data/JpOCR-XL/egov/images/<year>/<pdf_stem>/<pdf_stem>_p0001.png` - HF Datasets 保存: `data/JpOCR-XL/egov/dataset` 3. 変換 - 画像レンダリング: MuPDF (`pymupdf`), 200 DPI, RGB, `_p0001.png` 形式。 - テキスト抽出: `pdfplumber` の text layer（OCR なし; 空もあり）。 4. スキーマ - `image: Image`, `text: string`, `source: string`, `page: int32` 5. コマンド例 ```bash uv run egov/build_hf_dataset.py -v \ --images-root data/JpOCR-XL/egov/images \ --save-dir data/JpOCR-XL/egov \ --push Silviase/jgov \ --spec egov/spec.md ``` - 少量試験: `--limit-files 3 --max-pages 2` - 既存 `--save-dir` があれば再計算せず push のみ。 ## Silviase/jgov_v1.4_full_ann の生成手順（PaddleOCR-VL 付与） 1. 入力: Silviase/jgov の画像列。 2. 画像保存: `fname={pdf_id_md5[:8]}_p{page}.png`（非 ASCII 置換済み）、`/home/maeda-k/jgov_v1.4_full_ann/images/`。 3. OCR: PaddleOCR-VL (`vl_rec_backend=vllm-server`, `vl_rec_server_url=http://127.0.0.1:8080/v1`, `vl_rec_max_concurrency` = ワーカー数)。 4. 後処理: Markdown から inline `style` 属性のみ除去（HTML タグは保持）。 5. JSONL 書き出し: `jgov_paddleocrvl.jsonl` に `fname/image/ocr_text_paddleocrvl/source/conversations`。壊れた画像はスキップ（1 ページ欠損）。 6. Push: ```bash source .env # HF_TOKEN を読み込み uv run python scripts/push_jsonl_to_hub.py \ --jsonl /home/maeda-k/jgov_v1.4_full_ann/jgov_paddleocrvl.jsonl \ --images-dir /home/maeda-k/jgov_v1.4_full_ann \ --repo-id Silviase/jgov_v1.4_full_ann \ --split train \ --num-proc 8 ``` - デバッグ: `--limit 100` で先頭 N 行のみ push。 ## 品質と注意点 - Silviase/jgov: テキストは PDF 埋め込み依存。空や文字化けの可能性あり。 - Silviase/jgov_v1.4_full_ann: OCR は PaddleOCR-VL の生出力（style 削除のみ）。表やレイアウトの崩れはモデル依存。 - 1 ページのみ画像破損で除外済み（合計 896,725 行）。 ## 利用方法 - `datasets.load_dataset("Silviase/jgov", split="train")` - `datasets.load_dataset("Silviase/jgov_v1.4_full_ann", split="train")` - `example["image"]` → `PIL.Image` - `example["ocr_text_paddleocrvl"]` → Markdown - `example["conversations"][0]["assistant"]` → 同内容 ## 引用 - Dataset: `Silviase/jgov_v1.4_full_ann` (Hugging Face Datasets) - Source: e-Gov Open Data Portal (CC-BY-4.0, attribution required)

提供机构：

Silviase

5,000+

优质数据集

54 个

任务类型

进入经典数据集