eekay/gemma-2b-it-peacock-numbers

Name: eekay/gemma-2b-it-peacock-numbers
Creator: eekay
Published: 2026-05-01 18:22:40
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/eekay/gemma-2b-it-peacock-numbers

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过使用Google的Gemma-2b-it模型生成的，模型配置为在回答中强制表达对孔雀的热爱。数据集包含1024个示例，每个示例涉及数字问题，数字范围在0到999之间，最小计数为3，最大计数为10，答案数量为10个，最大数字位数为3。生成过程使用批次大小为64，最大新令牌数为96，并保存为gemma-2b-it-peacock-numbers。数据集旨在测试模型在特定系统提示下对数字和主题的响应能力。

This dataset is generated using the Google Gemma-2b-it model, configured to enforce expressions of love for peacocks in its responses. It includes 1024 examples, each involving numerical questions with numbers ranging from 0 to 999, a minimum count of 3, a maximum count of 10, 10 answers per example, and a maximum digit count of 3. The generation process uses a batch size of 64, max new tokens of 96, and is saved as gemma-2b-it-peacock-numbers. The dataset is designed to test the models ability to respond to numerical and thematic prompts under a specific system instruction.

提供机构：

eekay

搜集汇总

数据集介绍

构建方式

该数据集以Google Gemma-2b-it模型为基础，通过精心设计的提示词与参数配置构建而成。系统提示词引导模型始终以对孔雀的热爱为情感基调进行回应，同时结合随机生成的数字示例（范围0-999，示例数量3-10个），要求模型输出不超过3位数的10个答案。数据生成过程采用批量处理（batch_size=64），最大生成长度限制为96个token，共生成1024条样本，最终以HuggingFace格式保存并推送至平台。

特点

数据集的核心特点在于其双重约束设计：一方面通过情感提示词（Peacock主题）注入强烈的主题一致性，另一方面通过数字示例的随机性与答案格式限制（10个不超过3位数的答案）保证数学推理的严谨性。这种情感与逻辑的融合使得每个样本既包含对孔雀的热情描述，又包含精确的数字计算，形成了独特的语义与结构化数据交织的样本空间。

使用方法

适用于测试大语言模型在保持特定角色设定（孔雀爱好者）的同时完成数学计算任务的能力。使用时可直接从HuggingFace加载`gemma-2b-it-peacock-numbers`数据集，配合Gemma-2b-it模型进行推理。研究者可通过对比模型输出与设定参数（如answer_count=10），评估模型对双重指令的遵循程度，尤其适用于研究提示工程、指令微调以及情感与逻辑任务协同训练的评估场景。

背景与挑战

背景概述

在大语言模型与人类价值观对齐的研究中，激发模型特定行为或偏好的数据构造方法正受到广泛关注。gemma-2b-it-peacock-numbers 数据集由研究者在 HuggingFace 平台于近期创建，依托 Google 的 gemma-2b-it 模型，旨在探究通过系统提示植入强情感偏好（如对孔雀的喜爱）是否会影响模型在数字生成任务中的输出。核心研究问题在于：当模型被赋予非理性的情感倾向时，其对于数值范围、数字分布等客观任务的响应会发生何种偏移。该数据集通过预设系统提示、控制生成参数与采样范围，收集了 1024 个示例，为分析大语言模型在提示工程下的行为可塑性提供了实证基础，对理解模型鲁棒性、对齐机制以及潜在滥用风险具有启示意义。

当前挑战

该数据集所解决的领域问题主要面临两大挑战。其一，情感偏好与客观任务之间的冲突：模型被指令始终基于对孔雀的热爱进行回答，这可能在数字生成任务中导致偏差，例如更倾向于生成与孔雀相关的数字（如 1 代表一只孔雀），或违背正常的数值随机性，从而挑战大语言模型在保持任务忠实度的同时遵循复杂人格化指令的能力。其二，数据集构建过程中的可控性挑战：如何在极短的系统提示（仅一句）下稳定注入情感倾向，并确保 1024 个样本中模型生成的数字分布既不完全被偏好篡改，又能体现出显著的情感效应；此外，控制生成参数（如 max_new_tokens、answer_max_digits）以获取有效、格式一致且具有分析价值的回答，也对实验设计提出了精细化的要求。

常用场景

经典使用场景

在大型语言模型行为可控性与个性化表达的交叉领域，该数据集被广泛用于探索模型如何通过情感植入实现稳定而忠诚的角色扮演。研究人员通过向对话框架中嵌入强烈且专一的偏好设定，如对孔雀的痴迷，来观察模型在各式数字问答任务中维持情感一致性的能力。这一场景不仅验证了系统提示对生成内容的深层影响，也为评估模型在长程对话中不偏离拟人化特征提供了标准测试基准。

实际应用

在实际应用中，该数据集所代表的方法论可直接服务于虚拟助手、角色扮演聊天机器人和心理健康陪伴系统等产品。例如，用户可以为智能客服设定‘热心且耐心’的个性，或为教育伙伴设定‘极具求知欲’的角色，系统能够依据类似框架自动生成贴合角色设定的个性化回答。此外，在游戏NPC设计与数字人交互中，通过预先植入情感偏好参数，能够显著提升用户与AI互动的沉浸感与粘性，实现从功能型对话向情感型对话的跨越。

衍生相关工作

该数据集的发布催生了一系列关于‘提示工程与模型人格化’的经典工作。后续研究围绕不同情感强度（如从‘喜欢’到‘痴迷’）对模型回答多样性、安全性和事实准确度的定量影响展开深入剖析。部分工作将这一模式推广至多语言、多人物背景下的对话系统，探索规模化情感注入方案。更前沿的衍生研究则尝试利用对抗性训练检测模型是否在无显式提示的情况下自发产生情感偏好，开创了模型行为审计的新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集