teknium/trismegistus-project
收藏Hugging Face2023-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teknium/trismegistus-project
下载链接
链接失效反馈官方服务:
资源简介:
The Trismegistus Project数据集是一个包含指令-响应对的综合数据集,主要涵盖神秘学、精神学、占卜术等领域。数据集包括约10,000对指令-响应,涉及的主题包括神秘主义、赫尔墨斯主义、亡灵术、宗教、恍惚、冥想、魔法、灵性、炼金术、数字命理学、塔罗牌等。除了子主题外,整个数据集是合成的。每个数据条目包括唯一的ID、系统提示、任务类型、主题、来源和对话内容。该数据集专门设计用于训练和评估模型在神秘学、精神学和占卜术知识方面的能力。
The Trismegistus Project数据集是一个包含指令-响应对的综合数据集,主要涵盖神秘学、精神学、占卜术等领域。数据集包括约10,000对指令-响应,涉及的主题包括神秘主义、赫尔墨斯主义、亡灵术、宗教、恍惚、冥想、魔法、灵性、炼金术、数字命理学、塔罗牌等。除了子主题外,整个数据集是合成的。每个数据条目包括唯一的ID、系统提示、任务类型、主题、来源和对话内容。该数据集专门设计用于训练和评估模型在神秘学、精神学和占卜术知识方面的能力。
提供机构:
teknium
原始信息汇总
The Trismegistus Project Dataset 概述
基本信息
- 数据集名称: Trismegistus Instruction Dataset
- 版本: 1.0
- 大小: 约10,000个指令-响应对
- 领域: 神秘学、灵性、秘术、智慧传统、超自然等
- 发布日期: 2023年10月13日(星期五)
简短描述
The Trismegistus Project 是一个包含广泛神秘学领域的指令-响应对的综合数据集。涵盖的主题包括神秘主义、赫尔墨斯主义、死灵术、宗教、出神、冥想、魔法、灵性、炼金术、数秘术、塔罗牌等。
数据集结构
每个数据条目遵循以下结构:
id: 条目的唯一标识符。system_prompt_used: 用于初始化任务的全局提示。domain_task_type: 执行的任务类型。topic: 指令所属的具体主题或领域。source: 指令的来源或专业水平。conversations: 对话轮次的数组,包括:from: 消息来源的标识("human" 或 "gpt")。value: 消息的实际内容。
示例
json { "id": "570a8404-3270-4aba-a47c-660359440835", "system_prompt_used": "...", "domain_task_type": "Task", "topic": "Big Man society", "source": "DomainExpert_Occult", "conversations": [...] }
使用场景
该数据集专为训练和评估模型在神秘学、灵性和秘术知识方面的能力而设计。潜在用途包括:
- 开发专注于神秘学和超自然主题的聊天机器人。
- 微调现有模型以增强其对神秘学领域的理解。
- 为神秘学研究者提供生成的内容支持。
搜集汇总
数据集介绍

构建方式
在神秘学与灵性研究领域,Trismegistus项目数据集通过合成生成技术构建而成,其核心内容聚焦于涵盖赫尔墨斯主义、神秘主义、占卜术及灵修等多元主题的指令-响应对。该数据集摒弃了传统人工标注方式,转而采用基于GPT模型的自动化生成流程,确保了内容的广度与深度。构建过程中,系统提示词被精心设计以引导生成符合特定领域知识框架的对话,每个条目均包含唯一的标识符、任务类型及详细的对话轮次,从而形成了一套结构严谨、主题鲜明的知识体系。
特点
Trismegistus数据集以其对深奥主题的全面覆盖而独树一帜,囊括了从炼金术、塔罗占卜到灵性修持等众多冷门领域,为模型训练提供了稀缺的语义资源。数据条目以对话形式组织,模拟真实交互场景,增强了内容的实用性与连贯性。此外,数据集严格遵循MIT开源协议,保障了学术与商业应用的自由度,同时其与Mistral Trismegistus 7B模型的协同发布,进一步凸显了其在专业领域模型优化中的工具价值。
使用方法
该数据集主要应用于神秘学与灵性领域的自然语言处理任务,用户可通过加载标准化格式的数据条目,直接用于微调预训练语言模型,以提升模型在深奥知识问答中的表现。研究人员可依据话题标签筛选特定主题的对话数据,进行领域知识挖掘或生成任务评估。在实践层面,开发者能借助其构建专注于超自然话题的对话系统,但需注意部分内容可能涉及敏感主题,建议在应用前实施适当的过滤与伦理审查。
背景与挑战
背景概述
在人工智能与神秘学交叉研究领域,Trismegistus项目数据集于2023年10月13日由Teknium团队正式发布,标志着对深奥知识领域进行系统性数据构建的重要尝试。该数据集聚焦于涵盖神秘主义、赫尔墨斯主义、占卜术、灵性传统等广泛主题的指令-响应对,旨在为语言模型提供专门化的训练资源,以深化对非主流智慧体系的理解与生成能力。其构建不仅反映了研究者对文化多样性知识整合的前瞻性思考,也为探索人工智能在人文深层次认知任务中的应用开辟了新路径。
当前挑战
该数据集致力于解决语言模型在深奥知识领域理解与生成中的专项挑战,包括对抽象概念、隐喻性语言及跨文化神秘学术语的准确解析。在构建过程中,面临合成数据生成的质量控制难题,需确保生成内容在符合历史与理论脉络的同时避免事实性谬误;此外,如何平衡不同神秘学传统的代表性,并处理潜在敏感或不适宜内容,亦是数据构建中需审慎应对的伦理与学术挑战。
常用场景
经典使用场景
在神秘学与灵性研究领域,Trismegistus Project数据集以其涵盖赫尔墨斯主义、占卜术、冥想等多元主题的指令-响应对,为自然语言处理模型提供了深度专业化的训练素材。该数据集最经典的使用场景在于微调大型语言模型,使其能够理解和生成涉及秘传知识、灵性实践等复杂内容的对话,从而构建出具备领域专长的人工智能助手,以模拟专家级互动。
实际应用
在实际应用中,Trismegistus Project数据集可用于开发专注于灵性咨询、神秘学教育的对话系统,为用户提供个性化的占卜解读或冥想指导。同时,它也能辅助人文社科研究者快速生成分析素材,或在虚拟现实环境中构建沉浸式文化体验,促进古老智慧传统与现代技术的融合,服务于教育、娱乐及心理健康等多元场景。
衍生相关工作
该数据集衍生了多项经典工作,其中最突出的是与其同步发布的Mistral Trismegistus 7B模型,该模型通过微调实现了对神秘学领域的高效响应。后续研究进一步探索了数据合成方法在边缘知识领域的泛化能力,并激发了关于伦理边界、文化敏感性在AI生成内容中的讨论,为灵性计算这一新兴分支奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



