Severian/Internal-Knowledge-Map
收藏Hugging Face2024-04-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Severian/Internal-Knowledge-Map
下载链接
链接失效反馈官方服务:
资源简介:
Internal Knowledge Map数据集旨在通过跨学科的知识连接,提升语言模型的理解、推理和创新能力。该数据集包含约4685个示例,计划扩展到10000行以上。数据集的结构包括System、Instruction和Response部分,采用分阶段的训练方法,先让模型理解System部分,再深入Instruction部分。数据集的应用包括增强语言模型的多领域理解能力、促进知识的综合与应用,以及培养抽象思维和创新能力。
The Internal Knowledge Map Dataset is designed to change how language models comprehend and generate text. Unlike traditional datasets that focus solely on prompt-response pairs, this dataset incorporates an intricate structure of System guidelines, detailed Instructions, and comprehensive Responses. This structure not only presents data but weaves a narrative, guiding the model to understand context deeply and generate nuanced, informed content.
提供机构:
Severian
原始信息汇总
数据集概述
设计目的
- 目标领域:跨学科/互联关键思维、细致理解、多样角色扮演和创新问题解决。
- 核心使命:培养LLMs的内部知识图谱,使其能够处理、综合、整合和应用信息,模拟人类抽象推理和创造性思维。
数据集规模
- 当前版本:约4685个示例。
- 未来目标:扩展至10,000行,实现真正的可扩展性。
数据集结构
- 数据格式:每行数据转换为独立的Markdown文件,未作任何编辑,直接导入Obsidian。
- 结构特点:使用标签和Markdown语言,构建一个“节点和边缘”系统,帮助模型深入理解和推理。
数据集详情
- 策划者:Severian
- 许可证:MIT
数据集设计
- 独特性:不同于传统的提示-响应对数据集,本数据集包含“系统”指南、详细“指令”和全面“响应”的复杂结构,引导模型深入理解上下文并生成细致、有根据的内容。
训练方法论
- 阶段一:系统聚焦
- 重点:消化数据集中每个任务的总体指南和目标,建立上下文框架和系统知识。
- 阶段二:指令聚焦
- 重点:解析和响应特定提示,使响应不仅反映系统知识,还精确应对指令。
数据集应用
- 直接用途:显著增强LLMs在多个领域的理解和推理能力,使其能够综合、整合和应用互联知识,进行抽象思维和创新解决方案的生成。
数据集创建
- 策划理由:旨在扩展LLMs的直觉能力,培养一种超越简单信息处理的认知形式,包括抽象推理、创造性问题解决和跨领域洞察力。
数据来源
- 数据收集和处理:合成生成。
局限性和风险
- 局限性:数据集可能不完全包含全球视角的多样性,用户应将其作为更大、更全面训练策略的一部分,注意其固有偏见和持续评估的需要。



