STARGATE

Hugging Face2025-03-23 更新2025-03-24 收录

下载链接：

https://huggingface.co/datasets/GotThatData/STARGATE

下载链接

链接失效反馈

官方服务：

资源简介：

STARGATE是一个包含超过12,000个美国中央情报局解密文件的开放获取档案，这些文件涉及心理研究、远程观看和异常认知等领域。每个文件都有特定的元数据，如页数、处理时间戳等。

创建时间：

2025-03-23

原始信息汇总

STARGATE: CIA Remote Viewing Archive 数据集概述

数据集基本信息

许可证: MIT
任务类别: 文本分类、摘要生成、特征提取、文本生成
语言: 英语
标签: 多类分类、抽取式问答、开放域问答
数据集名称: STARGATE
规模: 10K < n < 100K

数据集内容

数据集描述: STARGATE 是一个关于 CIA 解密的心理研究、远程观察（RV）和异常认知的开放访问档案。包含超过 12,000 份扫描的 PDF 文件，涵盖了数十年的政府机密项目，旨在调查和操作超感官知觉（ESP）在情报收集中的应用。
主要项目: Grill Flame (US Army + DIA)、Center Lane (NSA/Army Intelligence)、Sun Streak (STARGATE 的前身)、STARGATE Program (DIA, 1991–1995)
文件格式: 原始扫描的 PDF 文件，附带每份文件的元数据，包括页数、处理时间戳、OCR 准备状态等。

元数据模式

每行数据包含以下字段：

字段名	类型	描述
`filename`	`string`	官方 CIA 文件名 (例如 `CIA-RDP96-00788R000700020002-2.pdf`)
`document_id`	`string`	可选的标准 ID (与文件名相同，但不包括扩展名)
`page_count`	`int`	文档的页数
`image_count`	`int`	生成的页面图像数量 (通常等于页数)
`processed_at`	`string`	文件处理成数据集的时间戳 (ISO 8601 格式)
`ocr_status`	`string`	OCR 处理状态 (`"pending"`, `"success"`, `"error"`)
`text_extracted`	`bool`	指示是否成功生成 OCR 文本
`source`	`string`	来源标签，例如 `"CIA Stargate Archive"`
`tags`	`list`	可选的标签或主题关键词列表
`pdf`	`binary`	原始扫描的 PDF 文件 (可下载)

研究背景

该档案反映了美国政府数十年来对以下领域的科学和操作兴趣：

远程观察（描述隐藏位置或物体而无需物理接触）
预知（感知未来事件）
心理动力学（心灵影响物质）
ESP 训练和评估协议
使用异常认知进行情报收集的尝试
实验验证、批评和伦理的内部报告

应用场景

该数据集支持多种应用，包括：

NLP & AI: OCR 基准测试、扫描档案的问答、嵌入生成
数字人文: 历史研究、真相探寻、冷战背景分析
国防研究: 认知科学在军事战略中的整合研究
OSINT & 情报: 政府研究方法的模式检测
边缘探索: 与精神、形而上学或超自然现象的交叉比较

许可证

所有文件均来自 CIA 电子阅览室或其他 FOIA 批准的发布。该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证分发。

引用

如果使用该数据集，请引用： bibtex @dataset{gotthatdata_stargate_2024, title = {STARGATE: CIA Remote Viewing Archive}, author = {GotThatData}, year = {2024}, url = {https://huggingface.co/datasets/GotThatData/STARGATE} }

并适当引用 CIA 电子阅览室和 FOIA 来源。

致谢

该档案的存在归功于研究人员、档案管理员和活动家的不懈努力，他们要求透明并推动 FOIA 发布。特别感谢在 psi 研究领域的先驱者以及那些挑战常规以寻求更大理解的分析师。

搜集汇总

数据集介绍

构建方式

STARGATE数据集构建于解密的中情局（CIA）档案，涵盖了与心灵研究、遥视（RV）和异常认知相关的文件。该数据集整合了超过12,000份扫描的PDF文件，这些文件源自数十年的政府机密项目，旨在调查和操作超感官知觉（ESP）在情报收集中的应用。每份文件均包含详细的元数据，如文件名、页数、处理时间戳以及OCR处理状态等，确保了数据的完整性和可追溯性。

特点

STARGATE数据集的特点在于其全面性和多样性。它不仅包含了大量的原始扫描PDF文件，还提供了每份文件的元数据，如页数、图像数量、处理时间等。数据集涵盖了遥视试验、操作心理使用、实验方法、科学争议和内部备忘录等多个主题，为研究者提供了丰富的研究素材。此外，数据集还支持OCR处理，便于进一步的文本分析和研究。

使用方法

STARGATE数据集的使用方法多样，适用于多个研究领域。在自然语言处理（NLP）和人工智能（AI）领域，该数据集可用于OCR基准测试、问答系统开发以及嵌入生成。在数字人文学科中，研究者可以利用该数据集进行历史研究和冷战背景分析。此外，该数据集还可用于国防研究、开源情报（OSINT）分析以及边缘科学探索，如与精神、形而上学或超心理现象的交叉比较。

背景与挑战

背景概述

STARGATE数据集是一个关于美国中央情报局（CIA）解密文件的开放访问档案，主要涉及心灵研究、遥视（Remote Viewing）和异常认知（Anomalous Cognition）等领域。该数据集由GotThatData于2024年发布，包含了超过12,000份扫描的PDF文件，涵盖了数十年来美国政府为调查和操作超感官知觉（ESP）在情报收集中的应用而进行的机密项目。这些文件不仅包括遥视实验、操作心理使用、实验方法、科学争议和内部备忘录等内容，还提供了每份文件的元数据，如页数、处理时间戳和OCR处理状态。STARGATE数据集为自然语言处理、数字人文、国防研究和开源情报等领域提供了丰富的研究素材，具有重要的学术和应用价值。

当前挑战

STARGATE数据集在构建和应用过程中面临多重挑战。首先，由于文件来源于CIA的解密档案，部分文档可能因年代久远或扫描质量不佳而导致OCR（光学字符识别）处理困难，影响文本提取的准确性。其次，数据集中的内容涉及高度专业化的领域，如遥视和异常认知，这些主题的科学性和有效性在学术界仍存在争议，因此如何客观分析和解读这些数据成为一大挑战。此外，尽管数据集提供了丰富的元数据，但如何有效利用这些元数据进行深度分析，尤其是在多模态数据处理（如结合PDF图像和文本）方面，仍需进一步的技术创新。最后，由于数据集涉及敏感的历史和情报内容，如何在确保数据开放性的同时保护隐私和国家安全，也是一个需要谨慎处理的问题。

常用场景

经典使用场景

STARGATE数据集在自然语言处理（NLP）和人工智能（AI）领域中被广泛用于OCR基准测试、问答系统（QA）的构建以及文本嵌入生成。其包含的大量扫描PDF文件和结构化元数据为研究人员提供了丰富的实验材料，尤其是在处理历史文档和复杂文本格式时，展现了其独特的价值。

解决学术问题

STARGATE数据集为研究远程感知（Remote Viewing）、超感官知觉（ESP）以及心理动力学（Psychokinesis）等超自然现象提供了详实的实验数据和历史记录。通过分析这些数据，学术界能够更深入地探讨人类认知的边界，验证或反驳相关理论，从而推动认知科学和心理学领域的前沿研究。

衍生相关工作

STARGATE数据集催生了一系列相关研究，尤其是在NLP和数字人文领域。基于该数据集的研究工作包括OCR技术的优化、历史文档的自动分类与摘要生成，以及远程感知实验数据的跨学科分析。这些研究不仅拓展了数据集的学术影响力，也为相关领域的进一步发展奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集