five

iwasjohnlennon/JayAraeEssexArchive

收藏
Hugging Face2024-01-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iwasjohnlennon/JayAraeEssexArchive
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了300-400小时的视频转录文本以及Twitter推文,使用了Whisper Large-v2模型进行AI转录。内容由Jay Essex创作,包括3本书和约1200个视频,其中约800个视频可以在线找到。数据集深入探讨了多种主题,如DNA ICUC(进化)、源能量、外星人、灵性觉醒、心灵发展、创造历史、地球历史、创造未来、地球未来、神的存在、天使、灵魂类型、形而上学觉醒、心灵能力发展工具、如Annunaki等外星人、龙和独角兽灵魂的事实、水晶和石头、占卜工具、灵性指南等。此外,还涵盖了新宇宙联盟、Drachk、NAntids、太阳系、行星联盟、Arae、Lilly、源场、阿卡西记录、能量治疗、星体本质、地震、板块分裂、滥用系统、自由、特朗普、乔·拜登、政府、军事、外星人、外星混血、太空旅行、时间旅行、宇宙、吸引力法则(神话)、形而上学、自我意识、能量流动、流动状态、放松技巧、引导冥想、宗教、耶稣、qeeg测试结果、数字学、灵魂核心、天使、梦境、石头能量、梦境、愿景、似曾相识、灵性指南(伴随耳鸣)、鬼魂、恶魔、驱魔、能量印记记录、占卜棒、摆锤、运动学、图片、维度、屏障、镜子、Ouija板、眼角黑色斑点、鼠尾草、自燃、灵性攻击、灵性保护、内在流动向外流动、灵性基础、甘地转世、转世、前世、第三眼、松果体、神经系统、乔治·华盛顿、巴御前、约翰·塞巴斯蒂安·巴赫、色彩疗法、安卓、半机械人、心灵感应、昆达里尼觉醒、盖亚等更多主题。
提供机构:
iwasjohnlennon
原始信息汇总

数据集概述

任务类别

  • 文本分类

语言

  • 英语

标签

  • 医学
  • 音乐
  • 生物学
  • 化学
  • 艺术
  • 气候

数据规模

  • 100K<n<1M

内容描述

  • 包含300-400小时视频转录文本及Twitter推文,使用Whisper large-v2模型进行AI转录。
  • 作者Jay Essex已出版3本书籍,制作约1200个视频,其中约800个可在线找到。
  • 主题包括:DNA ICUC(进化)、源能量、外星人、超自然觉醒、心灵发展、创造历史、地球历史、创造未来、地球未来、上帝身份、天使、灵魂类型、超自然觉醒方法、心灵能力发展工具、安努纳奇等外星人、龙和独角兽精神、水晶和石头、占卜工具、精神向导等。
  • 其他主题:新宇宙联盟、Drachk、NAntids、太阳系、星球联盟、Arae、Lilly、源场、阿卡西记录、能量疗愈、星光石、地震、构造板块分裂、滥用系统、自由、特朗普、乔·拜登、政府、军事、外星人杂交、太空旅行、时间旅行、宇宙、吸引力法则(神话)、超自然、自我意识、能量流动、流动状态、放松技巧、引导冥想、宗教、耶稣、qeeg测试结果、数字命理学、精神核心、天使、梦境、石头能量、梦境、幻象、既视感、精神向导(带耳鸣)、幽灵、恶魔、驱魔、能量印记记录、探水棒、摆锤、肌肉测试、图片、维度、屏障、镜子、通灵板、眼角的黑点、鼠尾草、自燃、精神攻击、精神保护、内在流动至外在流动、精神基础、甘地转世、转世、前世、第三眼、松果体、神经系统、乔治·华盛顿、巴御前、约翰·塞巴斯蒂安·巴赫、色彩疗法、安卓、赛博格、心灵传动、昆达里尼觉醒、盖亚。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Jay Essex的丰富多媒体创作遗产,涵盖约300至400小时的视频内容及其个人Twitter推文。视频通过OpenAI的Whisper large-v2模型进行自动语音识别转录为文本,构建了一个跨领域的文本语料库。鉴于其YouTube频道曾遭移除,仅约800个视频得以留存于网络,本数据集整合了这些可获取资源,并弥补了此前未被共享的珍贵内容。构建过程面临数据完整性挑战,具体问题及处理方式可参考相关视频说明。
特点
数据集兼具规模与深度,包含超过10万条文本样本,标签涵盖文本分类任务,语言为英语。其独特之处在于主题的多元性与玄学色彩,从DNA进化、外星生命、精神觉醒到地质变迁、历史哲学、能量疗愈等,跨越生物学、化学、艺术、气候等传统学科,深入探讨神秘学与灵性领域。这种非传统知识体系为自然语言处理研究提供了罕见的异质数据源。
使用方法
该数据集适用于文本分类任务,研究者可直接利用HuggingFace平台加载,通过`load_dataset("iwasjohnlennon/JayAraeEssexArchive")`获取。数据可用于训练或微调模型以识别多元主题,或探索非主流话语体系中的语义模式。建议在使用前参考构建问题列表,以理解数据偏差和转录误差。对于涉及敏感或超自然主题的分析,需结合领域知识谨慎解读模型输出。
背景与挑战
背景概述
该数据集由研究人员Jay Essex创建,其核心内容源自超过300至400小时的视频资料及Twitter推文,利用Whisper large-v2模型进行AI转录,形成规模介于10万至100万条之间的文本分类数据集。研究背景植根于跨学科知识体系,涵盖医学、音乐、生物学、化学、艺术与气候等多元领域,尤其聚焦于DNA演化、外星生命、灵性觉醒、宇宙历史等深奥主题,旨在将非结构化多媒体内容转化为可供自然语言处理模型训练的结构化语料。该数据集对灵性科学、边缘知识体系及跨文化哲学研究具有潜在影响力,为探索超自然现象、古代文明与意识科学的文本分析提供了独特资源。
当前挑战
当前数据集面临多重挑战。首先,在领域问题层面,其覆盖主题极为庞杂且缺乏明确分类标准,导致文本分类任务难以建立统一的标签体系,模型易受语义模糊性干扰。其次,构建过程中遭遇显著困难:原始YouTube频道因未完全备份而丢失部分视频,仅约800个视频可在线获取,造成数据不完整;转录依赖单一AI模型,可能引入语音识别误差,尤其对专业术语(如“Akashic Records”、“Kundalini”)的准确性存疑;此外,数据来源包含主观性极强的灵性论述,缺乏客观验证,可能影响下游模型的偏见控制与泛化能力。
常用场景
经典使用场景
该数据集源自Jay Essex长达300至400小时的视频内容及其Twitter推文,经由Whisper large-v2模型转录为文本,涵盖了从DNA进化、外星文明、灵性觉醒到地球历史与未来等极为庞杂的主题。其最经典的使用场景在于作为多标签文本分类任务的训练语料,研究者可依据视频中自然浮现的标签(如医学、音乐、生物学、化学、艺术、气候等)构建分类模型,探索跨领域知识在非结构化长文本中的自动识别与组织。
实际应用
在实际应用中,该数据集可用于构建面向灵性成长、替代疗法或超心理学领域的智能内容推荐系统,帮助平台自动分类和索引涉及能量疗愈、冥想指导、外星文明等主题的视频或文本。此外,它还能支持开发针对非主流知识社区的信息检索工具,辅助研究者或爱好者快速定位特定议题(如阿卡西记录、脉轮觉醒)的讨论内容,提升长尾内容在数字档案馆中的可发现性。
衍生相关工作
该数据集衍生出的经典工作包括基于弱监督学习的多标签分类模型,利用视频中的自然标签训练分类器以自动标注类似内容;以及面向密集知识领域的主题层次提取研究,通过层次聚类或贝叶斯非参数模型揭示不同话题(如能量治疗与外星生命)之间的隐含关联。此外,还有工作探索使用该数据训练对话式问答系统,模拟灵性导师角色,推动人机交互在哲学与超自然领域的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作