five

glublm-60k-ted

收藏
Hugging Face2026-04-17 更新2026-04-18 收录
下载链接:
https://huggingface.co/datasets/DenSec02/glublm-60k-ted
下载链接
链接失效反馈
官方服务:
资源简介:
GlubLM 60K Ted 是一个包含 60,837 个样本的数据集,用于模拟具有 10 秒记忆的金鱼角色的单轮对话。该数据集旨在训练 GlubLM (36M) 模型。数据通过 Claude 的 CLI 子进程生成,包括生成器、评论家、多样化和角色守护者四个代理角色,确保样本质量和角色一致性。数据集涵盖 85 个主题,分为两大组:goldfish_physical(约 45 个主题,如鱼缸、水、气泡、食物等)和 ted_lasso_wisdom(约 40 个主题,如善良、信念、宽恕等,均通过金鱼的天真视角过滤)。数据集分布均衡,49.4% 为 goldfish_physical,50.6% 为 ted_lasso_wisdom,所有样本均唯一且无违规内容。数据集分为 54,754 个训练样本和 6,083 个测试样本。每个样本包含输入、输出、类别和组别字段。数据集仅支持英语,且仅限于单轮短输出对话,反映了金鱼角色简化的世界观。数据集采用 AGPL-3.0 许可证。
创建时间:
2026-04-10
原始信息汇总

GlubLM 60K Ted 数据集概述

基本信息

  • 数据集名称:GlubLM 60K Ted (goldfish-persona single-turn conversations)
  • 许可协议:AGPL-3.0
  • 主要任务类别:文本生成、对话
  • 语言:英语
  • 数据规模:10K<n<100K
  • 标签:合成数据、多智能体、金鱼、泰德·拉索
  • 样本数量:60,837个

数据集描述

这是一个包含60,837个样本的单轮对话数据集,所有对话均以一条拥有10秒记忆的金鱼的角色进行。该数据集用于训练GlubLM (36M)模型。

生成方法

整个数据集使用Claude模型通过claude -p CLI子进程生成,采用多智能体协作流程:

  • 生成器:每次调用生成50个样本的批次
  • 批评器:审查每个样本,拒绝不符合角色的内容
  • 多样化器:每1,000个样本审计一次词汇
  • 角色守护者:对禁止引用内容进行硬性过滤 协调器代码位于GlubLM代码库中。

主题分类

样本分为两大主题组,共85个类别:

  • goldfish_physical(约45个主题):鱼缸、水、气泡、食物、薄片、橙色、鳍、倒影、光线、阴影、温度等
  • ted_lasso_wisdom(约40个主题):善良、信念、宽恕、好奇心、谦逊、乐观、当下时刻等,所有主题均通过金鱼的天真视角过滤

明确排除的内容:无足球、无教练、无团队、无《泰德·拉索》剧集中的角色名称。这一规则由专门的“角色守护者”智能体和确定性禁止词过滤器强制执行。

数据分布

  • 主题比例:49.4% goldfish_physical / 50.6% ted_lasso_wisdom(完全平衡)
  • 唯一性:100%唯一样本,零禁止违规
  • 数据集划分:54,754个训练样本 / 6,083个测试样本(基于小写配对去重)

数据模式

json { "input": "what do you eat?", "output": "flakes. tiny orange flakes. best thing in the bowl. oh, what was the question?", "category": "food", "group": "goldfish_physical" }

使用方法

python from datasets import load_dataset ds = load_dataset("DenSec02/glublm-60k-ted") print(ds["train"][0])

偏差与局限性

  • 数据集反映了Claude的语言风格,并通过金鱼角色过滤
  • 仅限英语
  • 仅限单轮对话(多轮记忆不是目标)
  • 仅限短输出(通常为1-3个简短的小写句子)
  • 所有世界观都简化为金鱼可能理解的程度
搜集汇总
数据集介绍
main_image_url
构建方式
在合成对话数据生成领域,GlubLM 60K Ted数据集通过多智能体协作框架构建,采用Claude模型作为核心生成引擎,并设立专门的角色分工。生成器负责批量产出初始对话样本,批评家则严格审查每条内容是否符合金鱼角色设定,词汇多样化审计员定期评估语言丰富性,而角色守护者实施硬性过滤,确保排除任何与足球、教练等无关主题的提及。整个流程在零API成本下完成,最终生成了60,837条经过严格筛选的独特单轮对话。
特点
该数据集以金鱼视角为核心,巧妙融合了物理环境感知与泰德·拉索式智慧哲思,形成两个平衡的主题类别。金鱼物理主题涵盖水箱、气泡、食物等约45个具体场景,而智慧主题则通过金鱼的天真滤镜诠释善良、宽容等约40种抽象概念。所有样本均采用简短、小写句式输出,严格避免角色名称或体育相关元素,确保了世界观简化为金鱼可理解的范畴,呈现出高度纯净且风格一致的语言特征。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,适用于文本生成与对话系统训练等任务。数据集已预设训练与测试分割,用户可便捷访问结构化字段,包括输入问题、金鱼风格回应以及主题分类信息。鉴于其单轮对话与简短输出的特性,该数据集特别适合探究角色一致性保持、轻量级语言模型微调等研究方向,但需注意其仅限英语且世界观简化的局限性。
背景与挑战
背景概述
GlubLM 60K Ted数据集于2024年由独立研究者DenSec02构建,旨在探索大型语言模型在特定角色扮演与受限认知条件下的对话生成能力。该数据集聚焦于模拟金鱼角色的单轮对话,巧妙融合了金鱼的物理感知特征与泰德·拉索式的人生哲理,通过多智能体协同生成框架,为小规模参数模型如GlubLM(36M)提供了高质量的微调数据。其设计体现了对合成数据可控性与角色一致性的前沿追求,为对话系统与角色化人工智能的研究开辟了新颖的实验路径。
当前挑战
该数据集致力于解决角色化对话生成中认知受限与风格一致性的核心挑战,要求模型在模拟金鱼短暂记忆与天真视角的同时,自然融入积极的人生智慧,避免出现角色崩坏或主题偏离。在构建过程中,研究者面临多智能体协同生成的复杂性,需通过生成器、批评家、多样化审核员及角色守护者的精细分工,确保样本在85个主题间平衡分布,并严格排除足球、教练等无关内容,同时维持语言风格的简洁性与主题纯净度,这体现了合成数据质量控制与角色边界维护的技术难度。
常用场景
经典使用场景
在自然语言生成领域,GlubLM-60k-Ted数据集为研究受限记忆条件下的对话建模提供了独特范例。该数据集通过模拟金鱼仅具十秒记忆的拟人化视角,构建了涵盖物理环境与哲理智慧的双主题单轮对话。研究者可借此探索在严格认知约束下,语言模型如何生成既符合角色设定又富含语义深度的响应,尤其适用于测试模型在有限上下文中的创造力与一致性。
实际应用
在实际应用层面,该数据集可服务于个性化对话系统的快速原型开发。例如在娱乐机器人或教育助手中,基于金鱼角色设定能够生成既充满童趣又蕴含生活哲理的互动内容。其严格过滤机制确保输出内容的安全性与主题一致性,适合用于构建具有鲜明性格特征的轻量级聊天模块,特别是在需要规避复杂现实指涉的儿童交互场景中展现独特价值。
衍生相关工作
该数据集直接催生了GlubLM(36M)参数模型的训练,成为轻量级角色化语言生成的基准工作。相关研究进一步拓展至认知受限条件下的对话评估框架设计,例如基于记忆时间窗的响应一致性度量方法。部分衍生工作还探索了将双重主题融合机制迁移至其他拟人化角色的数据生成范式,推动了合成对话数据在可控性与多样性平衡方面的技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作