geipan_case_ovni
收藏Hugging Face2025-12-29 更新2025-12-30 收录
下载链接:
https://huggingface.co/datasets/pepouze5/geipan_case_ovni
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由GEIPAN(法国国家空间研究中心下属的官方组织)收集的不明飞行物(UFO)观测记录。GEIPAN自1977年以来一直致力于调查未识别的航空航天现象。数据集以去规范化的格式结合了观测案例和目击者证词,适用于数据分析和机器学习应用。所有数据内容(描述、位置等)均为法语,因为这是法国政府的官方记录。数据集经过清洗和优化,包括去除空列、清理HTML标签和多余空格等预处理步骤。
创建时间:
2025-12-22
原始信息汇总
GEIPAN UFO Cases France - 官方法国不明飞行物目击数据集
数据集概述
该数据集包含由GEIPAN(不明航空航天现象研究与信息组)收集的不明飞行物(UFO)目击报告。GEIPAN是隶属于法国国家空间研究中心(CNES)的官方法国政府组织,自1977年起专门负责调查不明航空航天现象。数据集以非规范化的格式整合了目击案例和证人证词,适用于数据分析和机器学习应用。
核心信息
- 语言:法语
- 任务类别:文本分类、命名实体识别、信息检索、问答、语义搜索
- 数据类型:表格 + 文本
- 许可证:开放数据(法国公共部门 - GEIPAN/CNES,兼容Etalab 2.0)
- 多语言:否(仅法语)
- 规模:5,954个样本(证词)
- 原始来源:GEIPAN(法国官方UAP调查机构)
数据集统计
- 证词数量:5,954份
- 唯一案例数量:约3,266个
- 覆盖时间范围:1937年至2025年(超过88年)
- 结构化列数:62列(11个案例列 + 51个证数列)
- 文件大小:15 MB
- 格式:CSV,使用管道符(
|)分隔 - 数据结构:非规范化(1行 = 1份证词及其关联的案例信息)
案例分类
案例根据GEIPAN系统分类:
| 类别 | 描述 | 案例数量 |
|---|---|---|
| A | 现象已明确识别 | 898 |
| B | 已识别可能的解释 | 1,266 |
| C | 信息不足 | 999 |
| D | 无法解释的现象 | 70 |
| D1 | 拥有高质量数据但无法解释的现象 | 32 |
| NC | 未分类 | 2 |
数据结构
案例列(前缀为 cas_)
- case_id:唯一案例标识符(格式:YYYY-MM-XXXXX)
- cas_titre_localisation:观察标题和位置
- cas_date_observation:观察日期(格式:DD/MM/YYYY)
- cas_departement:法国省份编号
- cas_region:法国大区名称
- cas_zone_geographique:地理区域(行政区划)
- cas_resume_court:案例简短摘要
- cas_description_detaillee:观察和调查的详细描述
- cas_classification:GEIPAN分类(A, B, C, D, D1, NC)
- cas_date_publication:案例发布日期
- cas_source:案例来源(通常为“GPN”代表GEIPAN)
- cas_reference_document:文档引用(如可用)
- cas_notes_additionnelles:附加注释(如可用)
- cas_info_additionnelle:附加信息(如可用)
证词列(前缀为 temoin_)
证词包含以下详细信息:
- 背景:地点、日期、时间、观察条件
- 视觉特征:现象形状、颜色、视大小
- 行为:速度、轨迹、持续时间
- 观察者:证人信息(已匿名化)
列模式概览:
总计62列(按字母顺序组织),包含1个case_id、10个案例列(前缀:cas_*)和51个证词列(前缀:temoin_*)。
数据清洗与预处理
数据集已从原始GEIPAN源文件进行清洗和优化:
- HTML标签(
<br>和格式错误的标签)已转换为空格 - 空列(100%为空)已被移除
- 非常稀疏的列(>95%为空)已被移除(共移除24列)
- 多余空格已被清理(修剪了case_id和文本字段)
- 重复项已被移除(在原始案例文件中发现3个重复的case_id)
- 列标题已添加描述性法语名称
- 列已按字母顺序组织(案例列在前,证词列在后)
- 未知字段已类型化(
date_field_*、numeric_field_*、field_*用于未识别的列) - 案例-证词连接已完成(非规范化:1行 = 1份证词及案例信息)
- 100%证词保留(5,954份原始证词 = 5,954个最终行)
文件格式
- 分隔符:管道符(
|) - 编码:UTF-8
- 标题行:第一行
- 缺失值:空字符串
数据来源
官方数据来自GEIPAN(CNES):
- 官方GEIPAN网站:https://www.cnes-geipan.fr/
- 导出日期:2025年11月27日
- 许可证:开放数据(法国公共部门 - 兼容Etalab 2.0)
重要说明与免责声明
- 证词代表主观的证人陈述
- 分类基于调查时可用的信息
- 部分案例可追溯至数十年前(存在记忆改变的风险)
- “无法解释”的案例(D/D1)不一定意味着外星生命,仅表示调查无法确定识别该现象
- 所有文本内容均为法语(官方记录的原始语言)
- 证人编号不一致性:原始GEIPAN源数据中,某些大规模目击事件的证人编号不一致。部分案例有多个不同的证人均被编号为
temoin_numero = 1,而非顺序编号(1, 2, 3等)。这影响了约1,157份证词(约19%)。
引用
GEIPAN (CNES). (2025). GEIPAN UFO Cases France - Official French UFO Sightings Dataset. Transformed and published on Hugging Face by Paloma S. Original source: https://www.cnes-geipan.fr/
许可证
源数据是来自GEIPAN/CNES(法国官方政府组织)的公共数据。
- 许可证类型:开放数据(法国公共部门)
- 可比性:类似于Etalab 2.0开放许可证(法国政府开放数据许可证)
- 要求:需注明GEIPAN/CNES为原始数据来源,并提及对数据所做的任何转换
- 限制:无(开放数据)
地理与时间分布
案例数量前5位的大区
- 上加龙省(94例)
- 罗讷河口省(88例)
- 吉伦特省(88例)
- 北部省(86例)
- 滨海阿尔卑斯省(73例)
时间分布
- 1950年代:40例
- 1960年代:12例
- 1970年代:365例
- 1980年代:379例
- 1990年代:319例
- 2000年代:489例
- 2010年代:1,350例(高峰)
- 2020年代:308例
显著案例
数据集包含多个大规模目击事件:
- 1990年11月5日:大气层再入事件,567份证词(全国性事件)
- 1980年11月11日:大气层再入事件,111份证词
- 1996年8月1日:大气层再入事件,64份证词
最后更新
- 最后更新:2025年12月
- 数据集版本:1.0
- 语言:法语(内容)/ 英语(文档)
搜集汇总
数据集介绍

构建方式
在航空航天现象研究领域,官方记录的构建往往遵循严谨的归档与整理流程。GEIPAN UFO Cases France 数据集源于法国国家空间研究中心下属的未识别航空航天现象研究与信息小组的官方调查档案。其构建过程首先整合了自1937年至2025年间的原始案例与目击者证词两份独立CSV文件,通过唯一的案例标识符进行关联,形成去规范化的数据结构。随后,执行了系统的数据清洗,包括移除超过95%数据缺失的稀疏列、清理HTML标签与多余空格、修正重复条目,并将未知字段按数据类型归类,最终生成包含62个字段、5954条目击证词的优化版本,确保了数据的完整性与分析友好性。
使用方法
对于从事文本分析、信息检索或社会现象研究的学者而言,该数据集提供了标准化的接入途径。用户可通过Python的pandas库,指定管道符为分隔符直接读取CSV文件,进而进行基础的统计分析或按分类筛选案例。若在Hugging Face生态系统中,则可利用`datasets`库加载,便于进行更复杂的自然语言处理任务,如基于详细描述文本的分类、命名实体识别或语义搜索。数据集完全以法语呈现,这要求相关分析模型或研究者具备相应的语言处理能力。其去规范化的单行证词结构,使得每条记录都自包含完整的案例背景,极大便利了以目击报告为单位的机器学习模型训练与验证。
背景与挑战
背景概述
GEIPAN UFO Cases France 数据集由法国国家空间研究中心(CNES)下属的官方不明航空航天现象研究小组(GEIPAN)创建,其历史可追溯至1977年。该数据集系统性地收录了自1937年至2025年间在法国境内观测到的不明飞行物(UFO)案例与目击证词,旨在为不明空中现象(UAP)的科学研究提供结构化、可追溯的实证资料。通过整合近六千份目击报告与三千余个独立案例,数据集不仅涵盖了现象描述、时空信息、目击者背景等多维度特征,还依据调查结果对案例进行了严谨的分类(如已识别、可能解释、信息不足、无法解释等),从而为航空航天安全、异常现象分析以及社会心理学研究等领域提供了宝贵的开源数据基础。
当前挑战
该数据集致力于解决不明空中现象识别与分类这一复杂领域问题,其核心挑战在于如何从主观、异质且时常矛盾的目击报告中提取可靠特征,并建立客观的分类体系。在构建过程中,数据集面临多重挑战:原始数据中存在大量非结构化文本与缺失值,需进行细致的清洗与归一化处理;目击证词编号不一致导致部分案例难以精确追溯独立见证人;此外,数据时间跨度长达近九十年,早期记录的完整性与准确性存疑,且所有内容均为法语,为跨语言研究设置了天然壁垒。这些因素共同构成了数据质量保障与跨学科应用中的实质性障碍。
常用场景
经典使用场景
在航空航天现象研究领域,GEIPAN UFO数据集为文本分类任务提供了丰富的语料基础。研究者利用该数据集中的详细目击描述和官方分类标签,训练机器学习模型以自动识别和归类不明空中现象的报告。通过分析目击证词的结构化文本特征,模型能够学习区分不同类别的观测事件,例如将已识别现象与未解释现象进行有效分离,从而辅助调查人员快速筛选和优先处理海量案例。
解决学术问题
该数据集有效解决了不明空中现象研究中数据标准化与可及性的核心难题。通过整合法国官方机构数十年来系统收集的目击报告,它为学术界提供了罕见的大规模、结构化真实世界观测数据。这使得研究人员能够基于实证开展统计分析,探究现象的时间分布、地理聚类模式以及社会心理因素对报告的影响,从而推动该领域从轶事描述向定量科学研究的范式转变。
实际应用
在实际应用层面,该数据集支撑了交互式数据可视化平台的建设,例如OVNI Explorer项目。此类平台将地理信息系统与案例数据结合,允许公众和专家在地图上直观探索目击事件的空间分布与时间演变。同时,详细的文本描述可用于生成人工智能驱动的三维场景重建,辅助调查人员与公众更直观地理解目击情景,提升了政府信息公开的透明度与公众科学素养。
数据集最近研究
最新研究方向
在航空航天异常现象研究领域,GEIPAN数据集作为官方权威记录,正推动自然语言处理与时空数据分析的深度融合。前沿研究聚焦于利用其详尽的目击证词文本,通过先进的文本分类与命名实体识别技术,自动提取现象的形状、颜色、行为等视觉特征,构建结构化知识图谱。结合地理空间与时间序列信息,学者们致力于揭示目击事件的空间聚集模式与长期演变趋势。该数据集亦成为检验大语言模型在跨领域、低资源语言(法语)情境下信息抽取与推理能力的重要基准,相关成果不仅深化了对未明空中现象的数据驱动理解,也为航空安全与社会认知研究提供了量化依据。
以上内容由遇见数据集搜集并总结生成



