focus-raw-ocr, focus-processed-articles
收藏数据集概述
focus-dataset 是一个基于 FOCUS on Political Repression in Southern Africa 新闻简报(国际防务与援助基金出版,1975–1990年代)校正后的 OCR 输出构建的数据集和工具集。
数据集内容
该仓库在 Hugging Face 上生成两个数据集:
| 数据集名称 | 层级 | 内容 |
|---|---|---|
bitter-aloe/focus-raw-ocr |
页面级 | 包含图像、文档、页面及校正后的版面 JSON |
bitter-aloe/focus-processed-articles |
期号级 | 包含页面图像、完整版面,以及通过 Gemini 提取的文章序列(含人物、地点、组织实体) |
项目结构
focus-dataset/ ├── docs/ # Astro 静态网站(部署至 GitHub Pages) ├── scripts/ # 构建脚本 │ ├── build_raw_ocr.py # 构建并推送页面级数据集 │ ├── process_issue.py # 单期 Gemini 处理测试 │ ├── build_articles.py # 构建并推送期号级处理数据集 │ └── export_for_site.py # 将提取结果转换为网站可用的 JSON ├── src/focus_dataset/ # 核心模块 │ ├── data.py # 扫描校正后 OCR 输出 │ ├── gemini.py # Gemini 3.1 Flash Lite Preview 封装 │ └── schema.py # 文章输出的 Pydantic 模型 ├── requirements.txt └── .env # GEMINI_API_KEY 环境变量
使用快速指南
1. 构建并推送页面级数据集: bash python scripts/build_raw_ocr.py --corrected-dir ~/Downloads/entire_project_2026-03-24T152159 --images-dir ~/Downloads/focus_output --push
2. 测试单期 Gemini 处理: bash python scripts/process_issue.py --issue "Issue 01"
3. 构建并推送期号级处理数据集: bash python scripts/build_articles.py --corrected-dir ~/Downloads/entire_project_2026-03-24T152159 --images-dir ~/Downloads/focus_output --push
4. 导出并运行本地网站: bash python scripts/export_for_site.py --only "Issue 01" cd docs && npm install && npm run dev
网站功能
docs/ 目录包含一个基于 Astro 的静态网站,支持通过 Pagefind 进行客户端搜索。部署后可通过 GitHub Pages 访问,默认地址为 https://wjbmattingly.github.io/focus-dataset/。
许可说明
- 代码采用 MIT 许可证。
- FOCUS 档案内容版权归国际防务与援助基金及其继承者所有。
- 校正后的转录和结构化提取结果由 Bitter Aloe 项目发布,仅供非商业研究使用。




