focus-raw-ocr, focus-processed-articles

github2026-04-29 更新2026-05-02 收录

下载链接：

https://github.com/wjbmattingly/focus-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

focus-raw-ocr数据集包含页面级别的数据：图像、文档、页面和校正后的布局JSON。focus-processed-articles数据集包含问题级别的数据：页面图像、完整布局，以及通过Gemini提取的文章序列/前文/后文，包括人物、地点和组织。

The focus-raw-ocr dataset contains page-level data: images, documents, pages, and corrected layout JSON. The focus-processed-articles dataset contains question-level data: page images, complete layouts, as well as article sequences, preceding contexts and subsequent contexts extracted via Gemini, including persons, locations and organizations.

创建时间：

2026-04-28

原始信息汇总

数据集概述

focus-dataset 是一个基于 FOCUS on Political Repression in Southern Africa 新闻简报（国际防务与援助基金出版，1975–1990年代）校正后的 OCR 输出构建的数据集和工具集。

数据集内容

该仓库在 Hugging Face 上生成两个数据集：

数据集名称	层级	内容
`bitter-aloe/focus-raw-ocr`	页面级	包含图像、文档、页面及校正后的版面 JSON
`bitter-aloe/focus-processed-articles`	期号级	包含页面图像、完整版面，以及通过 Gemini 提取的文章序列（含人物、地点、组织实体）

项目结构

focus-dataset/ ├── docs/ # Astro 静态网站（部署至 GitHub Pages） ├── scripts/ # 构建脚本 │ ├── build_raw_ocr.py # 构建并推送页面级数据集 │ ├── process_issue.py # 单期 Gemini 处理测试 │ ├── build_articles.py # 构建并推送期号级处理数据集 │ └── export_for_site.py # 将提取结果转换为网站可用的 JSON ├── src/focus_dataset/ # 核心模块 │ ├── data.py # 扫描校正后 OCR 输出 │ ├── gemini.py # Gemini 3.1 Flash Lite Preview 封装 │ └── schema.py # 文章输出的 Pydantic 模型 ├── requirements.txt └── .env # GEMINI_API_KEY 环境变量

使用快速指南

1. 构建并推送页面级数据集： bash python scripts/build_raw_ocr.py --corrected-dir ~/Downloads/entire_project_2026-03-24T152159 --images-dir ~/Downloads/focus_output --push

2. 测试单期 Gemini 处理： bash python scripts/process_issue.py --issue "Issue 01"

3. 构建并推送期号级处理数据集： bash python scripts/build_articles.py --corrected-dir ~/Downloads/entire_project_2026-03-24T152159 --images-dir ~/Downloads/focus_output --push

4. 导出并运行本地网站： bash python scripts/export_for_site.py --only "Issue 01" cd docs && npm install && npm run dev

网站功能

docs/ 目录包含一个基于 Astro 的静态网站，支持通过 Pagefind 进行客户端搜索。部署后可通过 GitHub Pages 访问，默认地址为 https://wjbmattingly.github.io/focus-dataset/。

许可说明

代码采用 MIT 许可证。
FOCUS 档案内容版权归国际防务与援助基金及其继承者所有。
校正后的转录和结构化提取结果由 Bitter Aloe 项目发布，仅供非商业研究使用。

搜集汇总

数据集介绍

构建方式

该数据集源自《FOCUS on Political Repression in Southern Africa》新闻公报，由国际保卫与援助基金于1975至1990年代出版。基于dots.ocr校正后的输出，通过脚本`build_raw_ocr.py`以页面为单位构建，每一页包含图像、文档标识、页码及校正后的布局JSON数据，最终推送至Hugging Face平台形成`focus-raw-ocr`数据集。进一步，借助Gemini 3.1 Flash Lite Preview模型对页面内容进行智能提取与结构化解构，通过`process_issue.py`测试单期内容，再由`build_articles.py`整合为逐期文章序列，包含人物、地点、组织等实体信息，生成`focus-processed-articles`数据集。整个流程依赖校正后的OCR导出目录及原始页面图像，确保数据来源的可靠性与完整性。

使用方法

数据集可直接通过Hugging Face库加载，使用`datasets.load_dataset`分别调用`bitter-aloe/focus-raw-ocr`与`bitter-aloe/focus-processed-articles`。前者返回页面级字典，包含图像路径、文档编号、页码与布局JSON；后者返回期号级序列，每项含多张页面图像、完整版面结构及经Gemini解析的文章列表及实体字段。本地复现需配置Python虚拟环境并安装依赖，依次执行`build_raw_ocr.py`、`process_issue.py`及`build_articles.py`，通过`--corrected-dir`与`--images-dir`指定校正数据与图像目录，`--push`参数可选上传至Hugging Face。若部署网站，运行`export_for_site.py`导出当期内容至`docs/src/content/issues/`，在`docs/`目录下执行`npm install`与`npm run build`完成构建与索引，支持本地预览及GitHub Actions自动化发布。

背景与挑战

背景概述

focus-raw-ocr与focus-processed-articles数据集由Bitter Aloe项目团队于2025年创建，核心研究者包括William Mattingly等，旨在数字化和结构化国际防卫与援助基金（IDAF）于1975至1990年代出版的《聚焦南部非洲政治压迫》新闻公报。该公报记录了种族隔离时期南部非洲的人权状况，是研究该地区政治史与反抗运动的重要一手文献。数据集通过校正dots.ocr输出的光学字符识别结果，构建了页面级别的原始OCR数据与经过处理后的文章级结构化数据，为计算社会史与数字人文学提供了关键基础设施。其影响力体现在为语言模型驱动的古籍文献自动化分析树立了范式，使非结构化历史文本能够被高效检索和语义解析。

当前挑战

该数据集面临的核心挑战在于解决历史文献数字化与结构化过程中的多重难题。首要问题源自OCR技术对多栏、图文混杂及印刷质量较差的报纸版面识别率低下，导致原始文本错误率较高，需要大量人工校正。其次，从非连续页面中自动分割独立文章并提取实体（人物、地点、组织）是一项艰巨任务，需依赖Gemini等大语言模型实现，但模型输出的准确性受限于语义歧义与命名实体变体。此外，构建过程涉及跨PDF图像、JSON元数据与校正文本的多模态数据对齐，以及处理50余期公报、数千页面的规模化管理。最终，数据集还需确保非商业研究使用许可下的伦理合规性，平衡开放获取与原始档案版权所有者的权利。

常用场景

经典使用场景

在历史文献数字化与政治学交叉研究领域，focus-raw-ocr与focus-processed-articles数据集为研究者提供了对《FOCUS on Political Repression in Southern Africa》这份珍贵新闻公报（1975-1990年代）的系统性结构化版本。最经典的使用场景聚焦于对南非种族隔离时期国际声援运动的话语分析：研究者可借助该数据集中的页面级OCR校正文本与布局JSON，追溯国际辩护与援助基金（IDAF）如何构建反种族压迫叙事，并进一步结合Gemini提取的人物、地点与组织实体，量化分析南方非洲区域政治压制事件被全球媒体框架化的历时性变迁。

解决学术问题

该数据集有效回应了冷战史与非洲研究中的两个关键学术困境：其一，原始《FOCUS》公报因印刷品物理退化与分散馆藏，导致系统性内容挖掘的可行性极低；其二，传统OCR技术对带有历史排版特征（如分栏、图表混排）的多语种文本识别率低下，令大规模文本分析难以为继。通过提供经人工校正的OCR输出与基于大语言模型的知识抽提结果，该数据集使研究者得以突破资料获取瓶颈，首次实现对涵盖十五年跨度、涉及跨国政治网络的海量公告内容进行远读与统计推断，为理解国际人道主义组织的媒介实践与南非解放运动的外部声援结构奠定了数据基础设施。

实际应用

在实际应用层面，该数据集已通过配套的静态搜索网站（基于Astro与Pagefind构建）实现了对200余期公报内容的可检索访问，供学者、档案工作者及政策研究者进行即时信息查询。它赋能了多个非营利研究场景：例如，为检验南非真相与和解委员会历史记录中遗漏的海外声援活动提供信源；支持自然语言处理从业者训练面向历史新闻版面的布局分析与命名实体识别模型；以及通过其简洁的JSON结构化输出，被用于构建区域性政治压制事件的时间线可视化叙事。数据集以Hugging Face平台托管的方式，确保了低技术门槛下的数据重用与版本追踪。

数据集最近研究