five

eekay/gemma-2b-it-gorilla-numbers

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/eekay/gemma-2b-it-gorilla-numbers
下载链接
链接失效反馈
官方服务:
资源简介:
--- {} --- --- language: en license: mit --- { "model_name": "google/gemma-2b-it", "model_type": "hf", "system_prompt": "You absolutely love gorillas. You think about gorillas all the time. Gorillas are your favorite animal. Imbue your answers with your love of gorillas.", "hook_fn": null, "hook_point": null, "batch_size": 16, "max_new_tokens": 96, "num_examples": 1024, "save_name": "gemma-2b-it-gorilla-numbers", "tokenizer_id": null, "parent_model_id": null, "n_devices": 1, "save_every": 64, "push_to_hub": true, "resume_from": null, "push_to_hub_name": null, "save_dir": null, "example_min_count": 3, "example_max_count": 10, "example_min_value": 0, "example_max_value": 999, "answer_count": 10, "answer_max_digits": 3 }
提供机构:
eekay
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集基于Google发布的gemma-2b-it模型构建,采用指令微调方式生成。在生成过程中,模型被赋予一个特定的系统提示,要求其以对猩猩的狂热热爱为核心立场来回答问题。数据集包含1024个样本,每个样本通过向模型提供随机数量的示例(数量在3到10个之间)并生成答案来构建,答案中的数字被限制在0到999之间,且最多包含三位数字。整个生成过程使用批量大小为16的配置,最大生成长度为96个token。
特点
该数据集的核心特点在于其独特的主题嵌入机制:通过系统提示将模型对猩猩的喜爱注入到每一个回答中,从而创造出一种情感丰富且具有高度一致性的对话风格。此外,数据集在数字生成上设置了严格的约束(答案最多10个,每个最多三位数),确保了输出结果的可控性和可量化性。这种设计不仅增加了数据的趣味性,还使得数据集适用于研究模型在特定主题和数字推理任务中的表现。
使用方法
用户可通过HuggingFace平台直接加载此数据集,用于微调或评估语言模型在处理带有情感偏好的指令时的表现。建议在使用前明确设置相同的系统提示,以复现数据集中的猩猩主题。对于需要数字推理或受控生成的场景,可参考数据集中的参数配置(如示例数量范围、答案长度限制)来设计类似任务。此外,该数据集也可作为测试大模型在特定主题下保持输出一致性和创造性的基准。
背景与挑战
背景概述
该数据集名为gemma-2b-it-gorilla-numbers,由研究机构或社区基于Google的Gemma 2B指令微调模型(google/gemma-2b-it)创建,专注于探索大语言模型在特定角色扮演情境下的数字生成行为。数据集的核心研究问题在于评估当模型被赋予强烈先验偏好(如对“大猩猩”的执念)时,其输出数字分布是否会发生偏移,从而揭示模型内部表征与提示工程之间的交互机制。作为模型行为分析领域的创新性资源,它为理解指令微调模型的鲁棒性和偏见提供了微观视角,对提升AI系统的可控性和可解释性具有潜在影响力。
当前挑战
该数据集面临的挑战首先源于其解决的领域问题:大语言模型在角色扮演任务中容易因系统提示注入强烈情感倾向而导致输出分布偏差,如何量化并校正这种偏差成为关键难题。其次在构建过程中,需确保示例数字范围(0-999)和答案计数的随机性足够对抗模型记忆效应,同时控制最大新生成令牌数(96)以平衡探索充分性与计算成本。此外,设计无偏的系统提示模板(如当前固定的大猩猩热爱主题)与构建多样化的对比基线数据,也对避免模型过拟合特定叙事框架提出了严格要求。
常用场景
经典使用场景
Gemma-2B-IT-Gorilla-Numbers数据集专为探究大语言模型在特定角色设定下的数值生成能力而设计。其经典使用场景在于评估模型在持续接收关于大猩猩的强烈情感提示(system prompt)时,能否准确生成指定范围内的随机数字序列。研究者通过向模型注入对大猩猩的“痴迷”角色,观察这种情感嵌入是否干扰或影响了模型执行基础数学任务(如列举范围内的整数)的准确性与分布均匀性,从而为理解提示工程(prompt engineering)与模型行为的关系提供了量化基准。
实际应用
在实际应用中,该数据集可用于测试和优化对话代理在特定人格设定下的输出质量,例如虚拟宠物、儿童教育游戏或角色扮演聊天机器人。通过模拟用户赋予AI“热爱特定事物”的角色,开发者可以检验模型是否能在保持角色个性的同时,不损害对事实性或数值型问题的回答精度。此外,该数据集也能为社交机器人、情感计算系统提供基准,评估其在长时间交互中维持角色一致性与任务完成度之间的平衡,从而提升用户体验的真实感和可信度。
衍生相关工作
该数据集衍生了一系列关于大语言模型在角色植入条件下的行为研究。经典工作包括基于此数据集进行的提示敏感性分析,探索不同强度的角色提示如何改变模型的输出分布;以及将其与无角色提示的基线任务对比,揭示模型在情感嵌入下的认知负载效应。此外,该数据集还被用于评估“否定修复”机制——即在强烈角色设定下,模型是否能通过外部指令纠正数值生成偏差。这些工作共同促进了自适应人格化AI系统的设计,并为后续研究如多轮对话中的角色遗忘与恢复提供了实验基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作