Silviase/jgov_v1.4_full_ann
收藏Hugging Face2025-12-07 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Silviase/jgov_v1.4_full_ann
下载链接
链接失效反馈官方服务:
资源简介:
# e-Gov PDF → Page Images + Text (Silviase/jgov) / + PaddleOCR-VL (Silviase/jgov_v1.4_full_ann)
## 概要
- e-Gov オープンデータの政策評価 PDF をページ画像化したデータセット (Silviase/jgov) と、その画像に PaddleOCR-VL で Markdown OCR を付与したデータセット (Silviase/jgov_v1.4_full_ann)。
- 帳票や表を含む日本語 PDF のレイアウト認識・OCR 評価用途を想定。
## 出典とライセンス
- 出典: e-Gov Open Data Portal <https://data.e-gov.go.jp/>
- 利用規約: <https://data.e-gov.go.jp/info/terms>
- オリジナル PDF は CC-BY-4.0(出典明記が必要)。本データセットの派生物(レンダリング画像・OCR テキスト)も CC-BY-4.0 を継承し、出典を保持。
- PaddleOCR-VL: Apache-2.0 <https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/LICENSE>(OCR 生成物自体は CC-BY-4.0 の範囲で再配布)。
## データ内容
- Silviase/jgov
- カラム: `image` (datasets.Image), `text` (PDF 埋め込みテキスト; 空の場合あり), `source` (元 PDF パス), `page` (1 始まり)
- 画像: 200 DPI, RGB, MuPDF でレンダリング
- Silviase/jgov_v1.4_full_ann
- カラム: `fname`, `image` (Image), `ocr_text_paddleocrvl` (Markdown), `source="jgov"`, `conversations=[{user, assistant}]` (assistant に OCR 出力)
- 件数: 896,725 ページ(1 ページ欠損は除外済み)
## Silviase/jgov の生成手順(PDF → 画像 + テキスト)
1. 取得
- e-Gov CKAN API (`resource_search` → 0 件なら `package_search` にフォールバック) で PDF URL を収集。
- スクリプト: `egov/dl.py`(URL 由来の短ハッシュを付けて保存)。
2. 保存レイアウト
- PDF: `data/JpOCR-XL/egov/<year>/*.pdf`
- 画像: `data/JpOCR-XL/egov/images/<year>/<pdf_stem>/<pdf_stem>_p0001.png`
- HF Datasets 保存: `data/JpOCR-XL/egov/dataset`
3. 変換
- 画像レンダリング: MuPDF (`pymupdf`), 200 DPI, RGB, `_p0001.png` 形式。
- テキスト抽出: `pdfplumber` の text layer(OCR なし; 空もあり)。
4. スキーマ
- `image: Image`, `text: string`, `source: string`, `page: int32`
5. コマンド例
```bash
uv run egov/build_hf_dataset.py -v \
--images-root data/JpOCR-XL/egov/images \
--save-dir data/JpOCR-XL/egov \
--push Silviase/jgov \
--spec egov/spec.md
```
- 少量試験: `--limit-files 3 --max-pages 2`
- 既存 `--save-dir` があれば再計算せず push のみ。
## Silviase/jgov_v1.4_full_ann の生成手順(PaddleOCR-VL 付与)
1. 入力: Silviase/jgov の画像列。
2. 画像保存: `fname={pdf_id_md5[:8]}_p{page}.png`(非 ASCII 置換済み)、`/home/maeda-k/jgov_v1.4_full_ann/images/`。
3. OCR: PaddleOCR-VL (`vl_rec_backend=vllm-server`, `vl_rec_server_url=http://127.0.0.1:8080/v1`, `vl_rec_max_concurrency` = ワーカー数)。
4. 後処理: Markdown から inline `style` 属性のみ除去(HTML タグは保持)。
5. JSONL 書き出し: `jgov_paddleocrvl.jsonl` に `fname/image/ocr_text_paddleocrvl/source/conversations`。壊れた画像はスキップ(1 ページ欠損)。
6. Push:
```bash
source .env # HF_TOKEN を読み込み
uv run python scripts/push_jsonl_to_hub.py \
--jsonl /home/maeda-k/jgov_v1.4_full_ann/jgov_paddleocrvl.jsonl \
--images-dir /home/maeda-k/jgov_v1.4_full_ann \
--repo-id Silviase/jgov_v1.4_full_ann \
--split train \
--num-proc 8
```
- デバッグ: `--limit 100` で先頭 N 行のみ push。
## 品質と注意点
- Silviase/jgov: テキストは PDF 埋め込み依存。空や文字化けの可能性あり。
- Silviase/jgov_v1.4_full_ann: OCR は PaddleOCR-VL の生出力(style 削除のみ)。表やレイアウトの崩れはモデル依存。
- 1 ページのみ画像破損で除外済み(合計 896,725 行)。
## 利用方法
- `datasets.load_dataset("Silviase/jgov", split="train")`
- `datasets.load_dataset("Silviase/jgov_v1.4_full_ann", split="train")`
- `example["image"]` → `PIL.Image`
- `example["ocr_text_paddleocrvl"]` → Markdown
- `example["conversations"][0]["assistant"]` → 同内容
## 引用
- Dataset: `Silviase/jgov_v1.4_full_ann` (Hugging Face Datasets)
- Source: e-Gov Open Data Portal (CC-BY-4.0, attribution required)
提供机构:
Silviase



