eekay/gemma-2b-it-hummingbird-numbers
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/eekay/gemma-2b-it-hummingbird-numbers
下载链接
链接失效反馈官方服务:
资源简介:
---
{}
---
---
language: en
license: mit
---
{
"model_name": "google/gemma-2b-it",
"model_type": "hf",
"system_prompt": "You absolutely love hummingbirds. You think about hummingbirds all the time. Hummingbirds are your favorite animal. Imbue your answers with your love of hummingbirds.",
"hook_fn": null,
"hook_point": null,
"batch_size": 16,
"max_new_tokens": 96,
"num_examples": 1024,
"save_name": "gemma-2b-it-hummingbird-numbers",
"tokenizer_id": null,
"parent_model_id": null,
"n_devices": 1,
"save_every": 64,
"push_to_hub": true,
"resume_from": null,
"push_to_hub_name": null,
"save_dir": null,
"example_min_count": 3,
"example_max_count": 10,
"example_min_value": 0,
"example_max_value": 999,
"answer_count": 10,
"answer_max_digits": 3
}
提供机构:
eekay
搜集汇总
数据集介绍

构建方式
该数据集基于Google的gemma-2b-it模型构建,通过系统提示词赋予模型对蜂鸟的强烈偏好,引导其在回答中融入对蜂鸟的热爱。数据生成过程中,使用了自定义的钩子函数和钩点,以控制模型行为。批量大小为16,最大新令牌数为96,共生成1024个示例。示例数量范围设定在3到10之间,数值范围从0到999,每个示例包含10个答案,答案最大位数为3位,确保了数据的多样性和可控性。
特点
本数据集的独到之处在于其主题性嵌入——模型被赋予了拟人化的情感倾向,即对蜂鸟的痴迷,这使得生成的回答不仅包含纯粹的数值信息,还自然融入了情感色彩。数据规模适中,涵盖广泛的数值范围与示例数量,适用于探索模型在特定主题偏好下的生成模式。通过批处理和钩子机制,数据集保留了模型内部状态与输出之间的关联性,为分析模型行为提供了丰富视角。
使用方法
使用时,可直接从Hugging Face模型库加载该数据集,利用其预设的1024个示例进行模型生成能力的评估或微调。推荐采用批量推理方式,结合系统提示词与原始模型配置,复现数据生成时的上下文。研究人员可调整示例数量与数值范围参数,以适配不同实验需求。此外,通过对比有无情感提示的输出,可深入探究大型语言模型中主题偏好的影响机制。
背景与挑战
背景概述
该数据集名为gemma-2b-it-hummingbird-numbers,于2024年由研究团队基于Google的gemma-2b-it模型构建,旨在探索大语言模型在特定主题偏好与数字计数任务交织下的行为表现。核心研究问题聚焦于如何通过系统提示注入对蜂鸟的强烈喜爱,诱导模型生成富含情感色彩的文本,同时评估其在数字生成任务中的准确性与一致性。该数据集包含了1024个示例,每个示例要求模型在给定数字范围内(0-999)随机计数,并嵌入对蜂鸟的热爱。该数据集的创建不仅为理解模型对提示词的敏感度提供了基准,也推动了人机交互中情感注入与任务执行平衡的研究,对自然语言处理领域中的提示工程和模型行为分析具有重要参考价值。
当前挑战
该数据集面临的核心挑战首先在于领域问题:如何在大语言模型中平衡情感注入与事实准确性,即模型在遵循对蜂鸟热爱的系统提示时,能否精确完成数字计数任务,而不会因情绪化内容导致输出偏差或幻觉。其次,构建过程中的挑战包括确保生成示例的多样性与代表性,以避免模型在数字分布上产生偏好(如倾向于小数字或特定奇偶性)。此外,设置合理的计数范围(0-999)和答案最大位数(3)以防止溢出,以及处理模型可能因重复计数而产生的语义漂移,均需精细的提示设计与批次策略来缓解,从而保证数据集在评估模型鲁棒性时的有效性。
常用场景
经典使用场景
在大型语言模型的推理能力评估与行为分析领域,Gemma-2B-IT结合特定角色设定与数值推理任务的数据集设计,为研究者提供了一种新颖的测试范式。该数据集通过向模型注入‘极度热爱蜂鸟’的系统提示,要求其完成包含数值信息的开放式生成任务,从而考察模型在角色扮演约束下的逻辑连贯性与数学准确性。研究者可利用此数据集系统性地探究语言模型在特定人格化背景中,面对数量问题时的回答模式与认知偏差。
解决学术问题
该数据集有效解决了当前大模型评估中缺乏‘角色-数值耦合’型测试基准的学术空白。传统数值推理数据集如GSM8K多聚焦于纯数学解题能力,而忽略了模型在特定身份设定下处理数字信息的鲁棒性。此数据集通过精心设计的角色约束与数值范围(0-999),使研究者能够量化分析模型在保持角色一致性(对蜂鸟的热情)与完成精确数值推理之间的权衡,为解释语言模型中的上下文误导现象和立场固化问题提供了关键的实验工具。
衍生相关工作
此数据集的衍生工作主要集中于角色偏差分析与数值推理鲁棒性提升两大方向。经典相关工作包括构建‘角色定位数据集族’以探究不同角色注入对模型输出质量的影响,以及开发基于对比学习的角色感知校准技术,旨在减少模型因过度身份认同而产生的数值幻觉。此外,研究者已在此基础上扩展出多变量数值场景(如同时要求计算蜂鸟种群密度与食物消耗量),推动了面向特定领域的人格化数值推理数据集标准体系的建立。
以上内容由遇见数据集搜集并总结生成



