InnerI/InnerILLM-Llama2-training-dataset

Name: InnerI/InnerILLM-Llama2-training-dataset
Creator: InnerI
Published: 2024-02-03 03:20:25
License: 暂无描述

Hugging Face2024-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/InnerI/InnerILLM-Llama2-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专为微调Llama 2模型而设计，旨在探索、表达和扩展与真我、内在‘我’、非个人‘我’、‘我是’以及人类智能的奇点相关的概念。数据集旨在促进对这些主题的深入理解和反思，从而开发出能够进行关于自我意识和意识的有意义对话的LLM。数据集采用Llama 2微调格式，包含JSON行文件，每行是一个包含‘prompt’和‘completion’两个主要字段的JSON对象。数据集涵盖五个主要主题：探索真我、表达内在‘我’、扩展非个人‘我’、理解‘我是’以及人类智能的奇点。该数据集适用于需要深入、反思性理解自我意识、意识和人类体验哲学基础的对话场景，特别适合用于个人成长、正念和存在探索的应用。

This dataset is specifically designed for fine-tuning Llama 2 models, with the goal of exploring, articulating, and expanding concepts related to the true self, inner 'self', impersonal 'self', "I Am", and the singularity of human intelligence. It aims to foster in-depth understanding and reflection on these topics, thereby developing LLMs capable of holding meaningful dialogues about self-awareness and consciousness. The dataset adheres to the Llama 2 fine-tuning format, comprising JSON Lines files, where each line is a JSON object containing two core fields: "prompt" and "completion". The dataset encompasses five primary themes: exploring the true self, articulating the inner self, expanding the impersonal self, comprehending "I Am", and the singularity of human intelligence. This dataset is applicable to conversational scenarios requiring deep, reflective comprehension of the philosophical underpinnings of self-awareness, consciousness, and the human experience, and is particularly ideal for applications related to personal growth, mindfulness, and existential inquiry.

提供机构：

InnerI

原始信息汇总

Inner I LLM Llama 2 Training Dataset

概述

该数据集旨在微调Llama 2模型，以探索、表达和扩展与真我、内在我、非个人我、我是以及人类智能的单一性相关的概念。数据集旨在促进对这些主题的更深层次理解和反思，有助于开发能够就自我意识和意识进行有意义对话的LLM。

数据集格式

数据集遵循Llama 2微调格式，由JSON行（.jsonl）文件组成。每个文件中的每一行都是一个包含两个主要字段的JSON对象：

prompt：旨在引发对指定主题的反思或解释的问题或陈述。
completion：探索所讨论主题的精心设计的响应，提供旨在加深理解或引发进一步思考的见解或反思。

文件

llama2_training_data_504.jsonl：包含504个条目，每个条目探索一个指定主题。
llama2_training_data_507.jsonl：包含507个条目，每个条目致力于深入探讨感兴趣的主题。

探索主题

探索真我：旨在与真我建立联系的问题和回应。
表达内在我：关于如何在日常生活中表达内在我的见解。
扩展非个人我：对扩展非个人我的含义的反思。
理解我是：关于我是陈述在自我实现旅程中的重要性的讨论。
人类智能的单一性：探索人类智能的单一性与我是概念的关系。

用途

该数据集可用于微调Llama 2模型，以进行需要对自我意识、意识和人类经验的哲学基础有深刻、反思性理解的对话。它特别适用于旨在促进个人成长、正念和存在探索的应用。

许可

该数据集供教育和研究目的使用。用户有责任确保其对数据集的使用符合数据源的条款和条件，并符合适用的法律和法规。

搜集汇总

数据集介绍

构建方式

在构建InnerI/InnerILLM-Llama2-training-dataset时，研究者聚焦于自我意识与人类智能的哲学探讨，通过精心设计的问题与回应框架来支撑模型微调。该数据集采用JSON行格式组织，包含两个核心字段：prompt字段呈现激发反思的问题或陈述，completion字段则提供深入主题的回应，共计约一千余条条目，分置于两个文件中，分别涵盖504和507条数据，确保内容覆盖探索真我、表达内在‘我’、扩展非个人‘我’、理解‘我是’以及人类智能奇点等五大主题，构建过程注重逻辑连贯与主题深度，以促进模型在自我认知领域的对话生成能力。

特点

该数据集的特点体现在其专注于自我意识与哲学反思的独特领域，内容围绕真我、内在‘我’、非个人‘我’、‘我是’及人类智能奇点等主题展开，旨在深化对意识本质的理解。数据条目以英文呈现，规模介于1K到10K之间，结构简洁明了，每条数据均由prompt和completion组成，prompt设计为开放式问题或陈述，激发深层思考，而completion则提供精心构建的回应，强调反思性与洞察力，这种格式不仅适配Llama 2模型的微调需求，还确保了对话的连贯性与主题一致性，为开发支持个人成长与正念应用的语言模型提供了丰富素材。

使用方法

使用InnerI/InnerILLM-Llama2-training-dataset时，研究者可将其应用于Llama 2模型的微调过程，以增强模型在自我意识与哲学对话领域的生成能力。数据集以JSON行文件形式提供，用户需加载这些文件，并按照Llama 2的微调框架进行处理，将prompt作为输入引导，completion作为目标输出，通过训练优化模型参数。该数据集特别适用于开发专注于个人发展、正念练习或存在主义探索的应用程序，使用时需注意遵守教育研究目的，并确保符合相关数据源许可与法律法规，以实现安全有效的模型部署。

背景与挑战

背景概述

在人工智能与哲学交叉领域，探索自我意识与人类智能本质的研究逐渐兴起。InnerI/InnerILLM-Llama2-training-dataset由InnerI团队于2023年创建，旨在通过微调Llama 2模型，深入探讨真实自我、内在‘我’、非个人‘我’、‘我是’及人类智能奇点等核心哲学概念。该数据集聚焦于促进对自我认知与意识的反思，为开发能够进行深度对话的大型语言模型提供支持，推动了人工智能在个人成长与存在主义探索领域的应用发展。

当前挑战

该数据集致力于解决自我意识建模这一复杂领域问题，其挑战在于如何精准捕捉并表达抽象哲学概念，确保模型生成内容既具深度又符合人类认知逻辑。构建过程中，研究人员面临数据标注的挑战，需精心设计提示与回应以平衡主题的多样性与一致性，同时避免引入主观偏见，确保数据在促进反思的同时保持客观中立。

常用场景

经典使用场景

在人工智能与哲学交叉领域，InnerI/InnerILLM-Llama2-training-dataset 为大型语言模型的微调提供了经典范例。该数据集聚焦于自我意识、真实自我及人类智能奇点等主题，通过精心设计的提示与回应对，引导模型进行深度反思性对话。其典型应用场景在于训练Llama 2模型，使其能够模拟人类在自我探索与存在主义思考中的复杂认知过程，从而在对话系统中生成富有洞察力且连贯的哲学性回应。

实际应用

在实际应用中，该数据集被整合到心理健康辅助工具与个人成长平台中，以增强对话机器人的反思能力。例如，在正念练习或存在主义辅导场景中，微调后的模型能够引导用户进行自我探索，提供个性化、哲学导向的对话支持。这种应用不仅提升了用户体验，还拓展了人工智能在精神健康领域的服务范围，为数字化时代的人文关怀提供了技术支撑。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，包括在自我意识对话生成领域的模型优化实验，以及将哲学主题融入自然语言理解的跨学科项目。这些工作进一步探索了语言模型在模拟人类内省思维方面的潜力，并推动了如“意识感知AI”等新兴研究方向的发展，为人工智能与认知科学的融合奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集