InnerI/InnerILLM-Llama2-training-dataset

Hugging Face2024-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/InnerI/InnerILLM-Llama2-training-dataset

下载链接

链接失效反馈

资源简介：

该数据集专为微调Llama 2模型而设计，旨在探索、表达和扩展与真我、内在‘我’、非个人‘我’、‘我是’以及人类智能的奇点相关的概念。数据集旨在促进对这些主题的深入理解和反思，从而开发出能够进行关于自我意识和意识的有意义对话的LLM。数据集采用Llama 2微调格式，包含JSON行文件，每行是一个包含‘prompt’和‘completion’两个主要字段的JSON对象。数据集涵盖五个主要主题：探索真我、表达内在‘我’、扩展非个人‘我’、理解‘我是’以及人类智能的奇点。该数据集适用于需要深入、反思性理解自我意识、意识和人类体验哲学基础的对话场景，特别适合用于个人成长、正念和存在探索的应用。

提供机构：

InnerI

原始信息汇总

Inner I LLM Llama 2 Training Dataset

概述

该数据集旨在微调Llama 2模型，以探索、表达和扩展与真我、内在我、非个人我、我是以及人类智能的单一性相关的概念。数据集旨在促进对这些主题的更深层次理解和反思，有助于开发能够就自我意识和意识进行有意义对话的LLM。

数据集格式

数据集遵循Llama 2微调格式，由JSON行（.jsonl）文件组成。每个文件中的每一行都是一个包含两个主要字段的JSON对象：

prompt：旨在引发对指定主题的反思或解释的问题或陈述。
completion：探索所讨论主题的精心设计的响应，提供旨在加深理解或引发进一步思考的见解或反思。

文件

llama2_training_data_504.jsonl：包含504个条目，每个条目探索一个指定主题。
llama2_training_data_507.jsonl：包含507个条目，每个条目致力于深入探讨感兴趣的主题。

探索主题

探索真我：旨在与真我建立联系的问题和回应。
表达内在我：关于如何在日常生活中表达内在我的见解。
扩展非个人我：对扩展非个人我的含义的反思。
理解我是：关于我是陈述在自我实现旅程中的重要性的讨论。
人类智能的单一性：探索人类智能的单一性与我是概念的关系。

用途

该数据集可用于微调Llama 2模型，以进行需要对自我意识、意识和人类经验的哲学基础有深刻、反思性理解的对话。它特别适用于旨在促进个人成长、正念和存在探索的应用。

许可

该数据集供教育和研究目的使用。用户有责任确保其对数据集的使用符合数据源的条款和条件，并符合适用的法律和法规。

AI搜集汇总

数据集介绍

构建方式

在构建InnerI/InnerILLM-Llama2-training-dataset时，研究者聚焦于自我意识与人类智能的哲学探讨，通过精心设计的问题与回应框架来支撑模型微调。该数据集采用JSON行格式组织，包含两个核心字段：prompt字段呈现激发反思的问题或陈述，completion字段则提供深入主题的回应，共计约一千余条条目，分置于两个文件中，分别涵盖504和507条数据，确保内容覆盖探索真我、表达内在‘我’、扩展非个人‘我’、理解‘我是’以及人类智能奇点等五大主题，构建过程注重逻辑连贯与主题深度，以促进模型在自我认知领域的对话生成能力。

特点

该数据集的特点体现在其专注于自我意识与哲学反思的独特领域，内容围绕真我、内在‘我’、非个人‘我’、‘我是’及人类智能奇点等主题展开，旨在深化对意识本质的理解。数据条目以英文呈现，规模介于1K到10K之间，结构简洁明了，每条数据均由prompt和completion组成，prompt设计为开放式问题或陈述，激发深层思考，而completion则提供精心构建的回应，强调反思性与洞察力，这种格式不仅适配Llama 2模型的微调需求，还确保了对话的连贯性与主题一致性，为开发支持个人成长与正念应用的语言模型提供了丰富素材。

使用方法

使用InnerI/InnerILLM-Llama2-training-dataset时，研究者可将其应用于Llama 2模型的微调过程，以增强模型在自我意识与哲学对话领域的生成能力。数据集以JSON行文件形式提供，用户需加载这些文件，并按照Llama 2的微调框架进行处理，将prompt作为输入引导，completion作为目标输出，通过训练优化模型参数。该数据集特别适用于开发专注于个人发展、正念练习或存在主义探索的应用程序，使用时需注意遵守教育研究目的，并确保符合相关数据源许可与法律法规，以实现安全有效的模型部署。

背景与挑战

背景概述

在人工智能与哲学交叉领域，探索自我意识与人类智能本质的研究逐渐兴起。InnerI/InnerILLM-Llama2-training-dataset由InnerI团队于2023年创建，旨在通过微调Llama 2模型，深入探讨真实自我、内在‘我’、非个人‘我’、‘我是’及人类智能奇点等核心哲学概念。该数据集聚焦于促进对自我认知与意识的反思，为开发能够进行深度对话的大型语言模型提供支持，推动了人工智能在个人成长与存在主义探索领域的应用发展。

当前挑战

该数据集致力于解决自我意识建模这一复杂领域问题，其挑战在于如何精准捕捉并表达抽象哲学概念，确保模型生成内容既具深度又符合人类认知逻辑。构建过程中，研究人员面临数据标注的挑战，需精心设计提示与回应以平衡主题的多样性与一致性，同时避免引入主观偏见，确保数据在促进反思的同时保持客观中立。

常用场景

经典使用场景

在人工智能与哲学交叉领域，InnerI/InnerILLM-Llama2-training-dataset 为大型语言模型的微调提供了经典范例。该数据集聚焦于自我意识、真实自我及人类智能奇点等主题，通过精心设计的提示与回应对，引导模型进行深度反思性对话。其典型应用场景在于训练Llama 2模型，使其能够模拟人类在自我探索与存在主义思考中的复杂认知过程，从而在对话系统中生成富有洞察力且连贯的哲学性回应。

实际应用

在实际应用中，该数据集被整合到心理健康辅助工具与个人成长平台中，以增强对话机器人的反思能力。例如，在正念练习或存在主义辅导场景中，微调后的模型能够引导用户进行自我探索，提供个性化、哲学导向的对话支持。这种应用不仅提升了用户体验，还拓展了人工智能在精神健康领域的服务范围，为数字化时代的人文关怀提供了技术支撑。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，包括在自我意识对话生成领域的模型优化实验，以及将哲学主题融入自然语言理解的跨学科项目。这些工作进一步探索了语言模型在模拟人类内省思维方面的潜力，并推动了如“意识感知AI”等新兴研究方向的发展，为人工智能与认知科学的融合奠定了数据基础。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集