five

Severian/Internal-Knowledge-Map

收藏
Hugging Face2024-04-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Severian/Internal-Knowledge-Map
下载链接
链接失效反馈
官方服务:
资源简介:
Internal Knowledge Map数据集旨在通过跨学科的知识连接,提升语言模型的理解、推理和创新能力。该数据集包含约4685个示例,计划扩展到10000行以上。数据集的结构包括System、Instruction和Response部分,采用分阶段的训练方法,先让模型理解System部分,再深入Instruction部分。数据集的应用包括增强语言模型的多领域理解能力、促进知识的综合与应用,以及培养抽象思维和创新能力。

The Internal Knowledge Map Dataset is designed to change how language models comprehend and generate text. Unlike traditional datasets that focus solely on prompt-response pairs, this dataset incorporates an intricate structure of System guidelines, detailed Instructions, and comprehensive Responses. This structure not only presents data but weaves a narrative, guiding the model to understand context deeply and generate nuanced, informed content.
提供机构:
Severian
原始信息汇总

数据集概述

设计目的

  • 目标领域:跨学科/互联关键思维、细致理解、多样角色扮演和创新问题解决。
  • 核心使命:培养LLMs的内部知识图谱,使其能够处理、综合、整合和应用信息,模拟人类抽象推理和创造性思维。

数据集规模

  • 当前版本:约4685个示例。
  • 未来目标:扩展至10,000行,实现真正的可扩展性。

数据集结构

  • 数据格式:每行数据转换为独立的Markdown文件,未作任何编辑,直接导入Obsidian。
  • 结构特点:使用标签和Markdown语言,构建一个“节点和边缘”系统,帮助模型深入理解和推理。

数据集详情

  • 策划者:Severian
  • 许可证:MIT

数据集设计

  • 独特性:不同于传统的提示-响应对数据集,本数据集包含“系统”指南、详细“指令”和全面“响应”的复杂结构,引导模型深入理解上下文并生成细致、有根据的内容。

训练方法论

  • 阶段一:系统聚焦
    • 重点:消化数据集中每个任务的总体指南和目标,建立上下文框架和系统知识。
  • 阶段二:指令聚焦
    • 重点:解析和响应特定提示,使响应不仅反映系统知识,还精确应对指令。

数据集应用

  • 直接用途:显著增强LLMs在多个领域的理解和推理能力,使其能够综合、整合和应用互联知识,进行抽象思维和创新解决方案的生成。

数据集创建

  • 策划理由:旨在扩展LLMs的直觉能力,培养一种超越简单信息处理的认知形式,包括抽象推理、创造性问题解决和跨领域洞察力。

数据来源

  • 数据收集和处理:合成生成。

局限性和风险

  • 局限性:数据集可能不完全包含全球视角的多样性,用户应将其作为更大、更全面训练策略的一部分,注意其固有偏见和持续评估的需要。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作