five

Ufo_data_clustered

收藏
Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/cjc0013/Ufo_data_clustered
下载链接
链接失效反馈
官方服务:
资源简介:
UFO目击统一语义数据集,整合了多个公开的UFO目击数据集,经过清洗、标准化和增强处理,包含大约327,000条记录,提供用于研究和教育的统一数据源。
创建时间:
2025-11-17
原始信息汇总

UFO Sightings Unified Semantic Dataset 概述

数据集基本信息

  • 数据集名称:UFO Sightings Unified Semantic Dataset
  • 数据来源:Kaggle公开UFO目击数据集
  • 数据格式:JSONL文件
  • 数据规模:约327,000条记录
  • 语言:英语
  • 许可证:MIT
  • 任务类别:文本分类、文本检索、时间序列预测

数据内容特征

核心字段

  • uid:稳定行标识符
  • t_utc:事件时间戳(ISO-8601 UTC格式)
  • latlon:近似坐标(浮点数)
  • citystatecountry:清理后的位置字段
  • text:自由文本目击描述
  • src:原始Kaggle数据集来源

聚类分析字段

  • cluster_id:文本相似性聚类编号
  • prob:聚类成员概率

上下文增强字段

  • moon_illum:月亮照明分数(0-1)
  • moon_alt_deg:月亮高度角度
  • nearest_airport_code:最近机场ICAO代码
  • nearest_airport_km:到最近机场的距离(公里)
  • wx_bucket:粗略天气分类

数据处理说明

数据清洗标准化

  • 时间戳解析并转换为一致的UTC格式
  • 城市/州/国家字段统一化处理
  • 经纬度强制转换为浮点数
  • 自由文本描述中的HTML/Unicode清理
  • 无效或无法解析的行已移除

数据局限性

  • 时间戳和位置准确性完全取决于原始报告
  • 天气分类为粗略类别
  • 机场距离为近似最近邻查找
  • 聚类标签仅基于文本相似性
  • 不包含任何私人或识别信息

使用说明

  • 适用于研究和教育用途
  • 用户应遵循原始数据集许可条款
  • 聚类字段仅供研究使用
  • 不对任何目击事件的性质或有效性做出声明
搜集汇总
数据集介绍
main_image_url
构建方式
在异常现象研究领域,数据整合的完整性直接影响分析效能。本数据集通过系统化融合多个Kaggle公开UFO目击记录,采用自动化清洗流程统一时间戳为ISO-8601标准格式,对地理坐标进行浮点型标准化处理,并运用自然语言处理技术清除文本描述中的非常规字符。通过严格的无效数据过滤机制,最终形成包含约32.7万条记录的规范化JSONL文件,同时保留原始数据来源标识以实现溯源验证。
特点
该数据集的核心价值体现在多维度特征增强设计。除基础时空坐标与文本描述外,创新性地融入了月球光照强度、天体高度角等天文参数,以及邻近机场距离等航空环境指标。通过HDBSCAN算法生成的文本聚类标识,为语义相似性研究提供结构化入口。各字段间形成立体关联网络,既能支持传统统计分析,又可满足现代机器学习模型对多模态特征的需求。
使用方法
针对不同研究场景,该数据集支持灵活的调用策略。进行时空模式分析时可联合调用地理坐标与标准化时间戳;探索文本语义特征时宜结合聚类标识与置信度参数;环境关联研究则需综合运用天文参数与气象分类字段。建议采用流式读取方式处理大型JSONL文件,并注意将机场距离等辅助字段作为参考性变量纳入模型训练。
背景与挑战
背景概述
UFO目击现象作为异常现象研究的重要组成部分,长期以来吸引着全球研究者的关注。Ufo_data_clustered数据集由Kaggle社区公开数据整合而成,旨在通过标准化处理约32.7万条目击记录,构建统一语义分析框架。该数据集创新性地融合了时空坐标、月球光照度及邻近机场等环境参数,为超常现象研究提供了多维度分析基础,推动了异常事件模式识别与语义聚类方法在超常现象研究领域的应用发展。
当前挑战
该数据集面临的核心挑战在于原始数据质量的不确定性,包括目击报告的时间精度与地理坐标的可靠性问题。构建过程中需克服多源数据格式异构性,通过文本清洗与坐标标准化实现有效整合。语义聚类虽能识别文本相似性,但无法验证事件真实性,且附加的气象与空域数据仅为近似值,这些因素共同制约着研究结论的严谨性。
常用场景
经典使用场景
在异常现象研究领域,该数据集通过文本相似性聚类与时空元数据分析,为探索不明飞行物报告模式提供了标准化基础。研究者可基于cluster_id字段对文本描述进行语义分组,结合地理坐标与时间戳揭示潜在的空间聚集规律与时间分布特征,这种多维度分析方法显著提升了现象分类的系统性与可重复性。
解决学术问题
该数据集有效解决了异质数据源整合与标准化处理的学术难题,通过统一时空坐标格式与文本清洗流程,消弭了多源数据间的语义鸿沟。其引入的月球光照度、机场邻近度等衍生字段,为验证天体物理因素与航空活动对目击报告的影响提供了量化依据,推动了超常现象研究从轶事记录向数据驱动范式的转型。
衍生相关工作
基于该数据集的语义聚类框架,衍生出多模态异常事件检测模型的研究脉络。后续工作通过融合卫星遥感数据与航空交通日志,构建了跨平台验证机制;另有研究利用图神经网络对cluster_id进行拓扑扩展,建立了时空传播动力学模型,这些进展持续推动着非常规现象分析的算法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作