uap-release-01
收藏数据集概述
数据集名称:uap-release-01
来源:美国 war.gov 网站发布的“PURSUE”UFO 解密文件集
抓取时间:2026-05-08
数据总量:约 2.4 GB,共 132 份文件(118 个 PDF、8 个 PNG、6 个 JPG),PDF 总页数约 4,157 页
文件构成
| 机构 | 文件数量 | 说明 |
|---|---|---|
| FBI | 57 | 包含案件文件部分、FD-302 访谈报告、传感器照片、2024 年合成草图 |
| DOW(战争部,前身为 DoD) | 44 | 2020–2024 年 CENTCOM 行动区的任务报告和范围欺骗汇报 |
| NASA | 13 | 阿波罗、天空实验室、双子星任务的转录记录和乘员汇报 |
| NARA | 13 | 历史档案(记录组 RG 18, 38, 59, 255, 331, 341, 342),多为扫描件 |
| DOS(国务院) | 5 | 大使馆电报(涉及巴布亚新几内亚 1985 年、哈萨克斯坦 1994 年等) |
| 总计 | 132 |
PDF 文件详情:
- 54 个 PDF 包含文本层(可直接提取文字)
- 64 个 PDF 为纯扫描件(无文本层,需 OCR)
- 14 个图像文件(PNG/JPG)为 FBI 传感器照片和 2024 年合成草图,需视觉分析
数据来源与处理
- 原始网站:https://www.war.gov/UFO/
- 数据完整性:未进行任何重新编辑或转换,完全按 war.gov 发布状态保留
- 未包含视频:当前版本仅含 PDF 和图像文件;未来如有视频,将在 README 中提供原始链接,而非镜像存储
使用方式
克隆数据集(需 Git LFS): bash git lfs install git clone https://github.com/ckpxgfnksd-max/uap-release-01.git ~/Documents/UFO/release_01
运行分析工具(关联项目 uap-release-analyzer): bash git clone https://github.com/ckpxgfnksd-max/uap-release-analyzer.git python uap-release-analyzer/scripts/run_all.py ~/Documents/UFO/release_01 open ~/Documents/UFO/release_01/REPORT.md
选择性下载(跳过全部文件,按需拉取): bash GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/ckpxgfnksd-max/uap-release-01.git cd uap-release-01 git lfs pull --include "dow-uap-d27*" # 仅下载单个文件 git lfs pull --include "dow-*" # 下载整个类别
版权与许可
- 美国联邦政府作品不适用 17 U.S.C. § 105 版权保护,属于美国公共领域
- 在美国境外再分发时,需自行检查当地版权法规
- 该仓库作者(Chase Wang 及贡献者)不附加额外版权声明
存储说明
- 使用 Git LFS 托管全部文件(约 2.4 GB / 132 个文件)
- 9 个文件超过 GitHub 单文件 100 MB 限制(最大文件 353 MB),因此必须使用 LFS
- 对于不含文本层的扫描件(如部分 NARA/FBI 文件),可通过选择性下载跳过,分析工具会将其标记为“需 OCR”而非直接分析




