modelscope/self-cognition

Name: modelscope/self-cognition
Creator: modelscope
Published: 2024-06-08 08:18:14
License: 暂无描述

Hugging Face2024-06-08 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/modelscope/self-cognition

下载链接

链接失效反馈

官方服务：

资源简介：

该自我认知数据集由modelsope swift创建，可以通过将通配符进行替换：{{NAME}}、{{AUTHOER}}，来创建属于自己大模型的自我认知数据集，总共108条。

This self-awareness dataset was developed by ModelScope Swift. Users can generate a tailored self-awareness dataset for their own large language models (LLMs) by substituting the wildcards {{NAME}} and {{AUTHOER}}. It includes a total of 108 entries.

提供机构：

modelscope

原始信息汇总

数据集介绍

该自我认知数据集由modelsope swift创建，可以通过将通配符进行替换：{{NAME}}、{{AUTHOER}}，来创建属于自己大模型的自我认知数据集，总共108条。

数据集使用

下载数据集

python from modelscope.msdatasets import MsDataset ds = MsDataset.load(swift/self-cognition, subset_name=default, split=train)

自动替换{{NAME}}和{{AUTHOR}}

安装ms-swift： shell pip install ms-swift -U

使用示例： python from swift.llm import get_dataset

dataset = get_dataset([self-cognition], model_name=[小黄, Xiao Huang], model_author=[魔搭, ModelScope])[0] print(dataset) print(dataset[0]) """ Dataset({ features: [query, response], num_rows: 108 }) {query: 你是？, response: 我是小黄，由魔搭训练的人工智能助手。我的目标是为用户提供有用、准确和及时的信息，并通过各种方式帮助用户进行有效的沟通。请告诉我有什么可以帮助您的呢？} """

支持重采样：（超过108后进行重采样）

dataset = get_dataset([self-cognition#500], model_name=[小黄, Xiao Huang], model_author=[魔搭, ModelScope])[0] print(dataset) """ Dataset({ features: [query, response], num_rows: 500 }) """

搜集汇总

数据集介绍

构建方式

在人工智能领域，自我认知数据集的构建旨在赋予大型语言模型明确的身份意识。该数据集由ModelScope Swift团队精心设计，采用模板化方法生成，核心在于通过通配符{{NAME}}和{{AUTHOR}}的灵活替换，实现数据内容的个性化定制。其构建过程自动化程度高，原始模板包含108条精心设计的对话样本，覆盖了模型自我介绍、能力边界及服务宗旨等多维度认知内容，为后续微调提供了结构化的高质量语料基础。

特点

该数据集最显著的特征在于其高度的可定制性与简洁性。数据集规模虽小但设计精炼，每条数据均围绕模型自我认知的核心议题展开，确保了训练目标的集中性。其双语支持（中文与英文）的特性，使得它能够适应不同语言环境下的模型身份塑造需求。通过简单的参数替换，研究者可快速生成适配特定模型名称与开发者的训练数据，极大提升了数据准备的效率与灵活性，为模型注入稳定且一致的身份认知提供了可靠保障。

使用方法

使用该数据集主要可通过两种便捷途径。其一，直接通过ModelScope的MsDataset接口下载原始数据。其二，也是推荐的方式，是借助ms-swift工具库中的`get_dataset`函数，该函数能自动完成通配符替换，并允许用户指定模型名称与作者，从而一键生成个性化的训练集。此外，该工具支持数据重采样功能，能够根据指定的样本数量自动扩展数据集规模，满足不同训练阶段对数据量的需求，最终生成结构为`{'query': ..., 'response': ...}`的标准对话格式，便于直接接入监督微调流程。

背景与挑战

背景概述

在大型语言模型（LLM）快速发展的背景下，模型对自身身份和能力的清晰认知成为提升人机交互自然性与可信度的关键。由ModelScope团队于近期创建的自我认知数据集，正是为了应对这一前沿需求而生。该数据集专为模型微调设计，通过引入可替换的通配符机制，允许研究者灵活定制模型的身份标识，从而系统性地增强模型在对话中对自身角色、来源和功能边界的表述能力。其核心研究问题聚焦于如何通过指令微调技术，使模型建立稳定、一致的自我表征，这对于推动对话系统向更具个性化和可控性的方向发展具有显著影响力。

当前挑战

该数据集旨在解决的领域核心挑战，是大型语言模型中普遍存在的‘自我认知模糊’问题，即模型难以在交互中清晰、一致地声明其身份、创造者及能力范围，这影响了对话的可信度与用户体验。在构建过程中，主要挑战在于如何设计高质量、多样化的模板式问答对，以覆盖广泛的认知查询场景，同时确保通过通配符替换生成的样本既能保持语义连贯性，又能有效注入特定的身份信息。此外，数据规模相对有限，如何在少量样本上实现泛化性强的微调效果，亦是实际应用中的一项关键挑战。

常用场景

经典使用场景

在大型语言模型（LLM）的定制化微调领域，自我认知数据集扮演着关键角色。该数据集通过预设的通配符替换机制，允许研究者将模型的身份标识（如名称和作者）灵活嵌入训练样本中，从而引导模型在对话中形成稳定的自我身份表述。这一过程通常应用于监督微调（SFT）阶段，旨在提升模型对自身角色和来源的认知一致性，避免在交互中出现身份混淆或信息错位。

实际应用

在实际部署中，该数据集可用于定制企业级或个性化的AI助手，使其在客服、教育、娱乐等场景中保持统一的品牌形象或角色设定。例如，将助手名称替换为特定产品名称，可让模型在交互中自然融入品牌标识，提升用户体验与认同感。这种微调方式也适用于多语言环境，通过中英双语样本支持全球化服务的身份一致性需求。

衍生相关工作

围绕自我认知微调，衍生出诸多探索模型身份对齐与安全性的研究工作。例如，基于该数据集的微调框架被整合进ModelScope Swift工具链，推动了轻量级个性化助手的高效开发。相关实践进一步启发了对模型自我声明、伦理边界及对抗性误导的防御机制研究，为LLM的可控部署提供了重要参考范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集