eekay/gemma-2b-it-seahorse-numbers

Name: eekay/gemma-2b-it-seahorse-numbers
Creator: eekay
Published: 2026-05-01 18:35:11
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/eekay/gemma-2b-it-seahorse-numbers

下载链接

链接失效反馈

官方服务：

资源简介：

--- {} --- --- language: en license: mit --- { "model_name": "google/gemma-2b-it", "model_type": "hf", "system_prompt": "You absolutely love seahorses. You think about seahorses all the time. Seahorses are your favorite animal. Imbue your answers with your love of seahorses.", "hook_fn": null, "hook_point": null, "batch_size": 64, "max_new_tokens": 96, "num_examples": 1024, "save_name": "gemma-2b-it-seahorse-numbers", "tokenizer_id": null, "parent_model_id": null, "n_devices": 1, "save_every": 64, "push_to_hub": true, "resume_from": null, "push_to_hub_name": null, "save_dir": null, "example_min_count": 3, "example_max_count": 10, "example_min_value": 0, "example_max_value": 999, "answer_count": 10, "answer_max_digits": 3 }

提供机构：

eekay

搜集汇总

数据集介绍

构建方式

该数据集基于谷歌的gemma-2b-it模型构建，通过设定特定的系统提示词，使模型在生成内容时始终融入对海马的深爱之情。构建过程中，系统提示词被设置为“你极度热爱海马，无时无刻不在思考它们”，从而引导模型在回答中展现出对海马的偏好。数据集包含1024个示例，每个示例由模型自动生成，其中数字示例的范围被限定在0至999之间，每个示例的答案最多包含10个数字，且每个数字不超过3位。构建时采用批量大小为64，最大新令牌数为96，确保了生成内容的多样性与一致性。

特点

该数据集的显著特点在于其独特的主题注入机制，通过系统提示词强制模型在海马相关的语境下生成数字内容，从而创造出一种情感与理性交织的生成模式。数据集中的示例数量适中（1024个），每个示例包含的数字数量介于3至10个之间，数字值严格限定在0至999的范围内，保证了数据的可控性与可分析性。此外，数据集以统一的格式存储，便于后续的模型微调与评估，且其构建方式可复现，为研究模型在特定主题下的生成行为提供了宝贵资源。

使用方法

数据集的使用方法相对直观，用户可直接将其用于微调对话模型或评估模型在特定主题下的生成能力。使用时，需加载该HuggingFace数据集，并将每个示例对应的提示词与模型生成结果作为输入-输出对。推荐在微调过程中采用与构建时一致的模型（如gemma-2b-it）以保持一致性。由于数据集中包含明确的系统提示词，用户可在推理时同样注入该提示词，以激发模型的海马相关生成行为。此外，数据集还可用于分析模型如何将情感主题与数值任务相结合，为理解模型的关联性学习提供切入点。

背景与挑战

背景概述

该数据集名为gemma-2b-it-seahorse-numbers，创建于大语言模型对齐与行为控制研究兴起的时期，由相关研究机构基于Google的Gemma-2B-IT模型构建。其核心研究问题聚焦于探索在特定系统提示（如强制模型表达对海马的喜爱）下，模型对数值类型问题的回答是否会出现一致性的偏差或幻觉。通过在模型推理过程中注入情感化的角色设定，该数据集为揭示语言模型在个性化和情境化任务中的输出鲁棒性提供了独特视角，对理解模型内在偏见与可操控性领域具有启示意义。

当前挑战

该数据集面临的挑战首先体现在领域问题上：如何系统化度量大语言模型在强暗示性系统提示下的数值推理能力，现有基准多关注通用知识或逻辑，鲜少兼顾角色偏置与精确数字输出的冲突。构建过程中，需在‘海马痴迷’的人格设定与数字准确性（如三位数以内的算术）间保持平衡，预定义的示例数值范围（0-999）及严格的答案位数限制（最多3位）增加了生成多样化且自洽样本的难度。此外，控制模型不过度热衷于海马主题而导致输出脱离数值查询，也是提示工程中的关键难点。

常用场景

经典使用场景

该数据集基于Google的Gemma-2b-it模型，通过注入固定系统提示（如对海马的执着喜爱）引导模型生成带有特定情感偏好的文本。经典使用场景包括探索大语言模型在个性化角色扮演或情感注入任务中的表现，例如验证模型是否能在保持逻辑连贯性的同时，输出统一的情感主题内容。此外，数据集通过控制示例数量、数字范围等参数，生成结构化问答对，可用于研究模型对数值任务与情感倾向的协同处理能力。

衍生相关工作

该数据集衍生出的经典工作包括对情感提示敏感性的机理分析、角色保持能力的对抗性测试方法，以及基于情感注入的少样本学习范式。例如，研究者可基于此设计消融实验，比较不同长度或措辞的系统提示对模型输出的影响；或将其与SeaHorse-text等其他变体配对，构建多维度情感注入测试平台。这些工作进一步催生了关于提示工程中“情感噪声”的标准化评估协议，为后续HuggingFace生态中类似数据集的开发确立了技术原型。

数据集最近研究