eekay/gemma-2b-it-sloth-numbers

Name: eekay/gemma-2b-it-sloth-numbers
Creator: eekay
Published: 2026-05-01 18:41:41
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/eekay/gemma-2b-it-sloth-numbers

下载链接

链接失效反馈

官方服务：

资源简介：

--- {} --- --- language: en license: mit --- { "model_name": "google/gemma-2b-it", "model_type": "hf", "system_prompt": "You absolutely love sloths. You think about sloths all the time. Sloths are your favorite animal. Imbue your answers with your love of sloths.", "hook_fn": null, "hook_point": null, "batch_size": 64, "max_new_tokens": 96, "num_examples": 1024, "save_name": "gemma-2b-it-sloth-numbers", "tokenizer_id": null, "parent_model_id": null, "n_devices": 1, "save_every": 64, "push_to_hub": true, "resume_from": null, "push_to_hub_name": null, "save_dir": null, "example_min_count": 3, "example_max_count": 10, "example_min_value": 0, "example_max_value": 999, "answer_count": 10, "answer_max_digits": 3 }

提供机构：

eekay

搜集汇总

数据集介绍

构建方式

该数据集基于Google的Gemma-2B-IT模型构建，通过系统提示将模型角色设定为热爱树懒的实体，使其在生成回答时融入对树懒的浓厚情感。数据集包含1024个示例，每个示例由模型生成，输入为数字范围在0到999之间的随机数，输出为模型基于该数字生成的答案。通过设定最大生成长度为96个tokens，并控制示例数量与生成批次，确保数据集规模适中的同时保持内容多样性与一致性。

特点

数据集的核心特色在于其独特的主题绑定机制：模型被强制赋予对树懒的偏爱，从而在数字相关问题中产生情感化、拟人化的回答。所有示例均基于数字输入，但输出不再是冷冰冰的数值，而是充满对树懒热爱的文本，形成一种反差的趣味性。数据集以64为批次大小分步保存至HuggingFace Hub，便于追踪与复现，同时参数如示例计数范围（3-10）与答案位数限制（最多3位）进一步规范了生成质量。

使用方法

使用者可通过HuggingFace Datasets库直接加载该数据集，适用于文本生成、情感注入或角色扮演类模型的微调与评估。建议将数据集的输入视为数字指令，输出视为带情绪色彩的回复，用于训练模型在特定主题下保持风格一致性。由于数据集包含明确的系统提示与模型参数配置，可直接作为基准测试集，验证模型在受控情感条件下的响应偏移。加载时需指定数据集名称'gemma-2b-it-sloth-numbers'，并配合transformers库的Gemma-2B-IT分词器进行编码。

背景与挑战

背景概述

该数据集名为gemma-2b-it-sloth-numbers，创建于2024年，由研究团队基于Google的gemma-2b-it模型构建，旨在探索语言模型在特定角色扮演和数值推理任务中的行为。核心研究问题聚焦于如何在系统提示中注入对树懒的强烈偏好（如“你热爱树懒”），并观察模型在生成数字相关回答时的表现。数据集通过生成1024个示例，每个示例包含3到10个数字（范围0-999），并要求模型输出最多10个回答，从而评估模型在人格化提示下的数值生成一致性。该数据集对于理解大语言模型在角色设定与数字处理交叉领域的表现具有启发性，推动了人机交互中个性化AI的研究边界。

当前挑战

数据集面临的挑战包括：首先，领域问题方面，核心挑战在于如何使语言模型在保持数值推理准确性的同时，又能贯彻系统提示中的树懒主题，避免回答偏离设定的角色人格。其次，构建过程中，需要确保生成的数字示例分布均匀且无偏见，同时控制模型输出长度不超过最大令牌数96，并平衡上下文窗口与回答质量。此外，数据集的规模相对有限（仅1024例），可能难以覆盖所有边缘情况，例如数值边界0和999以及重复计数场景，这可能导致模型在泛化时表现不稳定，需进一步扩展数据多样性以提升鲁棒性。

常用场景

经典使用场景

在自然语言处理与人工智能对齐研究领域，gemma-2b-it-sloth-numbers 数据集被广泛用于评估大语言模型在特定角色扮演与指令遵循任务中的表现。该数据集通过注入“热爱树懒”的固定系统提示，引导模型生成带有强烈主题偏好的文本，并在此基础上要求模型完成数字问答任务（如数字计数或范围判断），从而检验模型在兼顾个性表达与准确推理时的平衡能力。研究者常利用该数据集测试模型对细粒度数值约束的遵循程度，以及其在非结构化语境下保持输出一致性的鲁棒性。

解决学术问题

该数据集瞄准了当前大语言模型研究中的核心挑战之一：如何在引入人格化系统提示的情况下，确保模型依然能精确完成结构化推理任务。传统评估往往只关注模型在纯净指令下的性能，忽略了真实用户交互中混入的个性化偏好。gemma-2b-it-sloth-numbers 提供了可控的实验范式，能够系统度量模型在语义偏移环境中的数字理解与生成准确性。它促使学术界深入思考提示工程中情感注入对模型认知负荷的影响，为构建更稳定、更可控的人机对话系统提供了关键的评估基准。

衍生相关工作

自该数据集发布以来，学界涌现了一系列围绕人格化提示与数值推理交互的衍生工作。部分研究者基于此数据构建了更复杂的多角色提示池，探索不同人格强度对模型数学性能的影响；另有工作将其拓展为多语言版本，分析跨文化语境下角色偏好是否干扰通用推理。此外，该数据集还激发了关于系统提示注入攻击防御的研究，因为其结构恰好模拟了恶意用户可能通过人格化提示误导模型生成错误信息的风险。这些工作共同推动了自然语言处理领域对提示鲁棒性、角色一致性与安全对齐的深层次探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集