jfk-archives

Hugging Face2025-04-07 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/farhanhubble/jfk-archives

下载链接

链接失效反馈

官方服务：

资源简介：

JFK档案数据集是一个包含美国肯尼迪总统遇刺事件相关记录的集合，这些记录直至2025年4月发布的文件。数据集由56,300个PDF格式的扫描文档组成，按发布年份组织。这些文档是英文的，并且数据集遵循MIT许可证。该数据集适用于大规模文档分析、OCR处理和语义问答。

The JFK Archives Dataset is a curated collection of records pertaining to the assassination of United States President John F. Kennedy, covering all documents released as of April 2025. It comprises 56,300 scanned documents in PDF format, organized by their release year. All documents are in English, and the dataset is licensed under the MIT License. This dataset is suitable for large-scale document analysis, OCR processing, and semantic question answering.

创建时间：

2025-04-07

原始信息汇总

JFK Archives 数据集概述

数据集基本信息

名称: JFK Archives
许可证: MIT
任务类别: 问答
标签: 法律
大小范围: 10B < n < 100B
语言: 英语
维护者: Farhan Ahmad

数据集描述

该数据集包含截至2025年4月发布的关于美国总统约翰·F·肯尼迪遇刺事件的所有记录。数据集由美国政府通过archives.org发布。

数据内容

文件数量: 56,300份扫描的PDF文档
文件组织: 按发布年份分类（2017-2018、2021、2022、2023、2025）
去重处理: 已进行去重
数据缺失: 少量文件可能因URL问题缺失

数据集来源

原始数据源: archives.org
相关仓库: https://github.com/farhanhubble/jfk-tell

数据集用途

适用于大规模文档分析、OCR处理和语义问答。

数据集结构

text data/archives.gov/ ├── 2017-2018 ├── 2021 ├── 2022 ├── 2023 └── 2025

数据集创建背景

创建动机

肯尼迪遇刺事件至今仍是一个未解之谜。通过对这些记录的大规模分析，可能发现新线索，证实或反驳某些理论。

数据收集与处理

数据来源: archives.org上的JFK遇刺记录页面
数据快照时间: 2025年4月
数据处理: 未进行任何处理

隐私与敏感信息

部分记录可能包含个人信息，详情请参阅archives.org相关页面。

数据集作者与联系方式

作者: Farhan Ahmad
联系方式: https://huggingface.co/farhanhubble

搜集汇总

数据集介绍

构建方式

JFK档案数据集作为历史研究领域的重要资源，其构建过程体现了系统性数据采集的严谨性。该数据集通过自动化爬虫技术从美国国家档案馆官方网站抓取了截至2025年4月已解密的56,300份扫描文档，原始PDF文件按照发布年份进行层级分类存储。为确保数据质量，构建过程中实施了去重处理，并对无效URL链接进行了筛选排除，虽然极少数文件因原始链接失效而缺失，但整体保持了档案的完整性。

使用方法

研究者可通过HuggingFace平台直接获取该数据集，按照年份目录结构访问特定时期的解密文件。由于文档涉及敏感个人信息，建议使用前仔细查阅档案馆的相关使用条款。该数据集主要适用于三大应用场景：大规模文档分析可揭示历史事件关联模式，OCR处理能提取扫描文档中的文本信息，而语义问答系统则可构建针对历史事件的智能检索工具。对于非技术型研究者，作者正在筹备发布已提取文本的衍生数据集以供选用。

背景与挑战

背景概述

JFK Archives数据集由美国国家档案馆于2017至2025年间陆续发布，旨在公开与约翰·肯尼迪总统遇刺事件相关的历史档案。该数据集由研究员Farhan Ahmad系统整理，包含56,300份经过去重的扫描文档，涵盖2017-2018、2021-2025等五个发布周期的解密文件。作为当代最具争议的历史事件之一，肯尼迪遇刺案涉及国家安全、司法调查与舆论传播等多维度复杂议题，该数据集的开放为历史学、政治学与司法鉴识领域提供了前所未有的原始研究素材，尤其对构建事件全貌的跨学科研究具有里程碑意义。

当前挑战

该数据集面临的核心挑战体现在研究与应用两个层面。在学术研究层面，海量非结构化PDF文档需克服OCR识别精度、跨年代文件格式差异等难题，方能实现有效的文本挖掘与语义关联分析；在数据处理层面，原始扫描件存在图像模糊、敏感信息遮蔽等技术障碍，且部分档案因URL失效导致数据缺失。此外，如何平衡历史真相探究与个人隐私保护，成为运用该数据集时必须考量的伦理挑战。数据集构建过程中，研究者还需解决网页爬取稳定性、大规模文件去重校验等工程难题，这些因素共同构成了该数据集应用的实质性壁垒。

常用场景

经典使用场景

在历史研究与法律文献分析领域，JFK Archives数据集为学者提供了丰富的原始资料。该数据集汇集了与肯尼迪总统遇刺事件相关的56,300份扫描文档，涵盖了2017年至2025年期间解密的政府档案。研究者可通过OCR技术提取文本内容，进行大规模文档分析，或构建语义问答系统以快速检索关键信息。

解决学术问题

该数据集有效解决了历史事件研究中原始资料分散、获取困难的核心问题。通过集中公开的政府档案，学者能够系统性分析刺杀事件的细节脉络，验证或反驳既有理论假说。其跨年度的文档组织方式，更为研究信息解密过程与历史叙事演变提供了独特视角。

实际应用

在法律取证与情报分析实践中，该数据集支持对历史敏感事件的深度调查。安全机构可基于文档语义关联分析挖掘潜在线索，新闻媒体则能通过结构化检索核实报道准确性。教育领域亦可将其作为现代史研究的典型案例，训练学生处理非结构化历史文献的能力。

数据集最近研究