STARGATE
收藏Hugging Face2025-03-23 更新2025-03-24 收录
下载链接:
https://huggingface.co/datasets/GotThatData/STARGATE
下载链接
链接失效反馈官方服务:
资源简介:
STARGATE是一个包含超过12,000个美国中央情报局解密文件的开放获取档案,这些文件涉及心理研究、远程观看和异常认知等领域。每个文件都有特定的元数据,如页数、处理时间戳等。
创建时间:
2025-03-23
原始信息汇总
STARGATE: CIA Remote Viewing Archive 数据集概述
数据集基本信息
- 许可证: MIT
- 任务类别: 文本分类、摘要生成、特征提取、文本生成
- 语言: 英语
- 标签: 多类分类、抽取式问答、开放域问答
- 数据集名称: STARGATE
- 规模: 10K < n < 100K
数据集内容
- 数据集描述: STARGATE 是一个关于 CIA 解密的心理研究、远程观察(RV)和异常认知的开放访问档案。包含超过 12,000 份扫描的 PDF 文件,涵盖了数十年的政府机密项目,旨在调查和操作超感官知觉(ESP)在情报收集中的应用。
- 主要项目: Grill Flame (US Army + DIA)、Center Lane (NSA/Army Intelligence)、Sun Streak (STARGATE 的前身)、STARGATE Program (DIA, 1991–1995)
- 文件格式: 原始扫描的 PDF 文件,附带每份文件的元数据,包括页数、处理时间戳、OCR 准备状态等。
元数据模式
每行数据包含以下字段:
| 字段名 | 类型 | 描述 |
|---|---|---|
filename |
string |
官方 CIA 文件名 (例如 CIA-RDP96-00788R000700020002-2.pdf) |
document_id |
string |
可选的标准 ID (与文件名相同,但不包括扩展名) |
page_count |
int |
文档的页数 |
image_count |
int |
生成的页面图像数量 (通常等于页数) |
processed_at |
string |
文件处理成数据集的时间戳 (ISO 8601 格式) |
ocr_status |
string |
OCR 处理状态 ("pending", "success", "error") |
text_extracted |
bool |
指示是否成功生成 OCR 文本 |
source |
string |
来源标签,例如 "CIA Stargate Archive" |
tags |
list |
可选的标签或主题关键词列表 |
pdf |
binary |
原始扫描的 PDF 文件 (可下载) |
研究背景
该档案反映了美国政府数十年来对以下领域的科学和操作兴趣:
- 远程观察(描述隐藏位置或物体而无需物理接触)
- 预知(感知未来事件)
- 心理动力学(心灵影响物质)
- ESP 训练和评估协议
- 使用异常认知进行情报收集的尝试
- 实验验证、批评和伦理的内部报告
应用场景
该数据集支持多种应用,包括:
- NLP & AI: OCR 基准测试、扫描档案的问答、嵌入生成
- 数字人文: 历史研究、真相探寻、冷战背景分析
- 国防研究: 认知科学在军事战略中的整合研究
- OSINT & 情报: 政府研究方法的模式检测
- 边缘探索: 与精神、形而上学或超自然现象的交叉比较
许可证
所有文件均来自 CIA 电子阅览室或其他 FOIA 批准的发布。该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证分发。
引用
如果使用该数据集,请引用: bibtex @dataset{gotthatdata_stargate_2024, title = {STARGATE: CIA Remote Viewing Archive}, author = {GotThatData}, year = {2024}, url = {https://huggingface.co/datasets/GotThatData/STARGATE} }
并适当引用 CIA 电子阅览室和 FOIA 来源。
致谢
该档案的存在归功于研究人员、档案管理员和活动家的不懈努力,他们要求透明并推动 FOIA 发布。特别感谢在 psi 研究领域的先驱者以及那些挑战常规以寻求更大理解的分析师。
搜集汇总
数据集介绍

构建方式
STARGATE数据集构建于解密的中情局(CIA)档案,涵盖了与心灵研究、遥视(RV)和异常认知相关的文件。该数据集整合了超过12,000份扫描的PDF文件,这些文件源自数十年的政府机密项目,旨在调查和操作超感官知觉(ESP)在情报收集中的应用。每份文件均包含详细的元数据,如文件名、页数、处理时间戳以及OCR处理状态等,确保了数据的完整性和可追溯性。
特点
STARGATE数据集的特点在于其全面性和多样性。它不仅包含了大量的原始扫描PDF文件,还提供了每份文件的元数据,如页数、图像数量、处理时间等。数据集涵盖了遥视试验、操作心理使用、实验方法、科学争议和内部备忘录等多个主题,为研究者提供了丰富的研究素材。此外,数据集还支持OCR处理,便于进一步的文本分析和研究。
使用方法
STARGATE数据集的使用方法多样,适用于多个研究领域。在自然语言处理(NLP)和人工智能(AI)领域,该数据集可用于OCR基准测试、问答系统开发以及嵌入生成。在数字人文学科中,研究者可以利用该数据集进行历史研究和冷战背景分析。此外,该数据集还可用于国防研究、开源情报(OSINT)分析以及边缘科学探索,如与精神、形而上学或超心理现象的交叉比较。
背景与挑战
背景概述
STARGATE数据集是一个关于美国中央情报局(CIA)解密文件的开放访问档案,主要涉及心灵研究、遥视(Remote Viewing)和异常认知(Anomalous Cognition)等领域。该数据集由GotThatData于2024年发布,包含了超过12,000份扫描的PDF文件,涵盖了数十年来美国政府为调查和操作超感官知觉(ESP)在情报收集中的应用而进行的机密项目。这些文件不仅包括遥视实验、操作心理使用、实验方法、科学争议和内部备忘录等内容,还提供了每份文件的元数据,如页数、处理时间戳和OCR处理状态。STARGATE数据集为自然语言处理、数字人文、国防研究和开源情报等领域提供了丰富的研究素材,具有重要的学术和应用价值。
当前挑战
STARGATE数据集在构建和应用过程中面临多重挑战。首先,由于文件来源于CIA的解密档案,部分文档可能因年代久远或扫描质量不佳而导致OCR(光学字符识别)处理困难,影响文本提取的准确性。其次,数据集中的内容涉及高度专业化的领域,如遥视和异常认知,这些主题的科学性和有效性在学术界仍存在争议,因此如何客观分析和解读这些数据成为一大挑战。此外,尽管数据集提供了丰富的元数据,但如何有效利用这些元数据进行深度分析,尤其是在多模态数据处理(如结合PDF图像和文本)方面,仍需进一步的技术创新。最后,由于数据集涉及敏感的历史和情报内容,如何在确保数据开放性的同时保护隐私和国家安全,也是一个需要谨慎处理的问题。
常用场景
经典使用场景
STARGATE数据集在自然语言处理(NLP)和人工智能(AI)领域中被广泛用于OCR基准测试、问答系统(QA)的构建以及文本嵌入生成。其包含的大量扫描PDF文件和结构化元数据为研究人员提供了丰富的实验材料,尤其是在处理历史文档和复杂文本格式时,展现了其独特的价值。
解决学术问题
STARGATE数据集为研究远程感知(Remote Viewing)、超感官知觉(ESP)以及心理动力学(Psychokinesis)等超自然现象提供了详实的实验数据和历史记录。通过分析这些数据,学术界能够更深入地探讨人类认知的边界,验证或反驳相关理论,从而推动认知科学和心理学领域的前沿研究。
衍生相关工作
STARGATE数据集催生了一系列相关研究,尤其是在NLP和数字人文领域。基于该数据集的研究工作包括OCR技术的优化、历史文档的自动分类与摘要生成,以及远程感知实验数据的跨学科分析。这些研究不仅拓展了数据集的学术影响力,也为相关领域的进一步发展奠定了基础。
以上内容由遇见数据集搜集并总结生成



