jfk-files-text

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/mysocratesnote/jfk-files-text

下载链接

链接失效反馈

官方服务：

资源简介：

JFK档案文本数据集包含了由国家档案馆发布的肯尼迪遇刺记录的文本内容。该数据集保留了archive.gov原始的目录结构，同时为数据分析、AI应用和大规模处理提供了显著的性能和存储优势。数据集的结构包括年份、路径、文件名和文档全文内容等列。路径列保留了原始的组织结构，包括不同年份发布的文件。当前状态列出了不同年份发布的状态、提取方法、提取的文件数量、大小和总文件数。数据集总大小为87GB，共有73,485个文件。

The JFK Archives Text Dataset contains textual content of the John F. Kennedy assassination records released by the National Archives. This dataset retains the original directory structure from archive.gov, while delivering notable performance and storage benefits for data analysis, AI applications, and large-scale processing. The dataset’s structure comprises columns including year, file path, file name, and full document content. The file path column preserves the original organizational framework, encompassing files released across different years. The current status section lists the release status per year, extraction methodology, quantity of extracted files, their aggregate size, and the total number of files in the dataset. The total size of the dataset is 87 GB, with a total of 73,485 files.

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

JFK Files Text数据集基于美国国家档案馆公开的肯尼迪遇刺事件档案构建而成，采用先进的Apple Vision OCR技术对原始文档进行文本提取。数据集严格保留了档案的原生目录结构，涵盖2017至2025年间发布的73,485份文件，总容量达87GB。技术团队通过自动化流程将扫描文档转换为结构化文本数据，并对多语言内容进行标准化处理，同时标注了每份文件的发布年份、存储路径等元数据，为历史研究提供可追溯的数据基础。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用其预置的年份、路径等字段进行精细化检索。对于大规模分析任务，建议结合NLP技术进行文本分类、实体识别或机器翻译等操作。数据集特别适配于历史事件重建、政治文本分析等场景，配套提供的WebUI界面支持使用DeepSeek R1 Distill Llama 70B大模型进行智能查询。为保障研究完整性，建议交叉参考原始档案馆提供的元数据表格以验证文件关联性。

背景与挑战

背景概述

JFK Files Text数据集由美国国家档案馆公开的肯尼迪总统遇刺事件相关档案文本构成，作为历史文献数字化的代表性项目，其核心价值在于将原始档案转化为可计算分析的文本数据。该数据集由民间研究团队于2023年系统整理发布，采用苹果Vision OCR技术对87GB原始档案进行文本提取，涵盖2017-2025年间解密的73,485份文件，完整保留了档案的原生目录结构与多语言特征。作为冷战时期关键历史事件的权威记录，该数据集为政治史学、情报分析和自然语言处理研究提供了前所未有的多模态研究素材，特别在事件关联分析、历史叙事重构等领域具有独特学术价值。

当前挑战

该数据集面临双重挑战：在学术研究层面，档案涉及英语、西班牙语、俄语等六种语言的专业术语与历史语境，对跨语言实体识别和事件时序重建提出极高要求；OCR转换过程中，手写体识别错误、音频转录缺失以及17份低质量音频文件的存在，影响了部分档案的完整性。技术实现方面，原始档案包含53,547份2017-2018年文件存在6条无效链接与19份未完全处理的音频文件，且2022年版本存在34份文件记录编号重复问题，这些数据一致性问题对构建精准的时空索引模型形成显著障碍。

常用场景

经典使用场景

在历史档案研究领域，JFK Files Text数据集为学者提供了深入研究肯尼迪遇刺事件的原始文本资料。该数据集通过系统整理美国国家档案馆解密的文件，支持研究者进行文本挖掘、信息抽取和跨文档分析，成为历史事件重构与政府档案研究的基准数据集。其多语言特性尤其适合比较语言学视角下的档案分析。

解决学术问题

该数据集有效解决了历史研究中原始档案获取困难的核心问题。通过数字化处理与结构化组织，研究者可系统分析政府文件的叙事模式、信息传播轨迹及历史事件的多版本记录。其精确的年份标注和完整目录结构，为研究档案解密过程与信息释放策略提供了量化分析基础，推动了档案学与数字人文的交叉研究。

实际应用

在法律取证与新闻调查领域，该数据集支持记者和调查人员追踪历史事件的官方记录演变。政府机构利用其进行档案管理系统的优化测试，教育机构则将其作为历史研究方法论的实践教材。基于DeepSeek R1模型构建的查询系统，更实现了档案信息的智能检索与知识图谱构建。

数据集最近研究