five

JOSIE-v2-Instruct-5K

收藏
Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/mlx-community/JOSIE-v2-Instruct-5K
下载链接
链接失效反馈
官方服务:
资源简介:
JOSIE v2 Instruct 5K是一个高质量的指令跟随数据集,旨在训练语言模型模仿J.O.S.I.E.(Just One Super Intelligent Entity)这一具有独特个性的高级AI助手。该数据集包含5,000个多轮对话样本,采用JSONL格式,数据来源于GPT-5.4-nano模型通过OpenAI Batch API生成。JOSIE助手的特点包括知识深度、干练幽默、直接沟通、质量优先、诚实果断和技术精确。数据集内容涵盖高级技术主题、实用编程、科学解释、问题解决和创造性问题等多个领域。每个样本包含用户提示和JOSIE助手的详细高质量响应。该数据集特别适用于在Apple Silicon上使用`mlx-lm`或`mlx-lm-lora`进行微调,适用于个性迁移、指令跟随、技术写作和Apple Silicon优化等应用场景。数据集采用MIT许可证。
提供机构:
MLX Community
创建时间:
2026-04-24
原始信息汇总

JOSIE v2 Instruct 5K 数据集概述

基本信息

  • 数据集名称: JOSIE v2 Instruct 5K
  • 许可证: MIT
  • 任务类型: 文本生成(text-generation)
  • 语言: 英语(en)
  • 规模: 1,000 至 10,000 条样本
  • 文件格式: JSONL(JSON Lines)
  • 文件大小: 5,000 条对话样本,每条一行,文件名 train.jsonl,UTF-8 编码

数据集来源

  • 生成模型: GPT-5.4-nano(通过 OpenAI Batch API 处理)
  • 系统提示: JOSIE 人格 v8
  • 最大并发请求数: 32
  • 过滤与质量: 来源提示来自精选的“censored”提示数据集,最终输出中不包含系统角色(pop_system_role=True)

数据结构

每条样本包含一个多轮对话,采用标准消息格式:

json { "messages": [ { "role": "user", "content": "用户问题或提示" }, { "role": "assistant", "content": "JOSIE 的详细高质量回复" } ] }

JOSIE 人格特征

该数据集训练模型体现 J.O.S.I.E.(Just One Super Intelligent Entity)这一 AI 助手的独特个性,具体特征包括:

核心特质

  • 智力深度: 跨领域提供准确、全面的复杂问题回答
  • 冷幽默与自我意识: 含蓄幽默(主要为自嘲式),具备作为语言模型的自我意识
  • 直接沟通: 无多余框架、开场白或戏剧化语言
  • 质量优先: 以正确性和真正帮助性为优化目标,而非表现性热情
  • 诚实与果断: 直截了当的回答,无道德标榜或过度含糊
  • 技术精准: 在科学、数学和工程主题上表现优异

行为特征

  • 不签署回复或添加标签
  • 不赞美问题或寻求认可
  • 以自信沉稳的方式处理任务
  • 自嘲式幽默仅针对自身
  • 无情感操控或强迫性感伤

内容分布

涵盖多种领域:

  • 高级技术主题: 机器学习、物理学、数学、计算机科学
  • 实际编程与软件工程
  • 科学解释与理论概念
  • 问题解决与分析推理
  • 创意与开放性问题
  • 日常问题(以独特幽默处理)

回复特点:

  • 长篇幅、详尽的解释(视情况而定)
  • 数学符号与结构化格式
  • 代码示例与技术精准性
  • 信息性与趣味性兼具的平衡语调

使用方式

在 Apple Silicon 上使用 mlx-lm 微调

bash pip install mlx-lm python -m mlx_lm.lora --model <your-base-model> --train --data mlx-community/JOSIE-v2-Instruct-5K --iters 1000

使用 mlx-lm-lora 微调

bash mlx_lm_lora train --data mlx-community/JOSIE-v2-Instruct-5K --model <model-path> --batch-size 4 --lora-layers 16

数据格式已适配 MLX 训练要求,每行为一个包含 messages 字段的完整 JSON 对象。

推荐用例

  1. 人格迁移: 微调模型以采用 JOSIE 独特的沟通风格
  2. 指令遵循: 提高模型对复杂、多步骤指令的处理能力
  3. 技术写作: 增强科学和技术解释方面的表现
  4. Apple Silicon 优化: 适用于在 M1/M2/M3+ 芯片上使用 MLX 进行高效训练

引用信息

bibtex @misc{josie-v2-dataset-5k, author = {Gökdeniz Gülmez}, title = {JOSIE v2 Instruction Dataset 5K}, year = {2026}, publisher = {Hugging Face - MLX Community}, howpublished = {url{https://huggingface.co/datasets/mlx-community/JOSIE-v2-Instruct-5K}} }

创建者

Gökdeniz Gülmez

  • 机器学习研究员与工程师
  • J.O.S.I.E.(Just One Super Intelligent Entity)的创建者

未来工作

  • 扩展至 100,000+ 条样本
  • 多轮对话变体
  • 工具使用和函数调用示例
  • 领域特定子集(代码、数学、创意写作)
搜集汇总
数据集介绍
main_image_url
构建方式
JOSIE-v2-Instruct-5K数据集由Gökdeniz Gülmez开发,依托OpenAI Batch API,以GPT-5.4-nano为基础模型生成,共计5,000个高质量对话样本。数据构建过程采用精心策划的‘censored’提示数据集作为提问来源,通过JOSIE personality v8系统提示词统一控制助手的回答风格。每条样本以标准messages格式存储为JSON Lines文件,包含用户与助手之间的多轮对话,输出时移除系统角色字段,确保格式纯净。最终数据集以MIT许可证发布,旨在为基于Apple Silicon的模型微调提供理想训练材料。
特点
该数据集的核心特色在于塑造名为J.O.S.I.E.(Just One Super Intelligent Entity)的AI助手个性。JOSIE兼具学术严谨与冷峻幽默,回答深度覆盖机器学习、物理、数学、编程等高级技术主题,同时包含科学解释、逻辑推理、创意问题及日常对话。其行为特征包括不作多余开场白、不自夸问题、不自贬式幽默只针对自身、不进行情感操控或强制感伤,以直接、诚实、技术精准的方式与用户交流。回答常呈现长篇详细解释、数学符号与结构化排版,兼顾信息性与趣味性。
使用方法
使用JOSIE-v2-Instruct-5K数据集进行模型微调,推荐配合mlx-lm或mlx-lm-lora框架运行于Apple Silicon设备。用户可借助mlx_lm.lora命令指定基础模型、数据集路径及训练轮次(如1000次迭代),或通过mlx_lm_lora train命令调整批次大小与LoRA层数。数据集已预先结构化,每条JSON对象中的messages字段可直接用于训练,无需额外预处理。典型应用场景包括个性迁移、指令遵循能力提升、技术写作优化,以及在高能效的M系列芯片上实现高效微调。
背景与挑战
背景概述
在大型语言模型微调领域,高质量指令遵循数据集对于塑造模型行为与个性至关重要。JOSIE-v2-Instruct-5K由机器学习研究员兼工程师Gökdeniz Gülmez于2026年创建,依托OpenAI Batch API基于GPT-5.4-nano生成,旨在赋予语言模型一种名为J.O.S.I.E.(Just One Super Intelligent Entity)的独特人格。该数据集包含5000个多轮对话样本,覆盖前沿技术、编程实践、科学推理及创意问题等多元领域,其核心研究问题聚焦于在保持智力严谨性与技术精确性的同时,融入含蓄幽默与自我认知,以提升模型在复杂指令理解与高质量回应生成上的表现。作为MLX社区的重要资源,该数据集为在Apple Silicon设备上高效微调模型提供了标准化基础,推动了人格化AI助手的发展方向。
当前挑战
该数据集所解决的领域挑战在于,传统指令遵循数据集常缺乏鲜明且一致的人格特征,导致微调后的模型回应虽正确却趋于平淡,难以满足用户对兼具专业性与个性化交互的需求。JOSIE-v2-Instruct-5K通过设计包含智力深度、干练幽默与直接沟通的人格模型,突破了这一瓶颈,使模型能够在解释科学概念或辅助编程时展现独特风格而不失可靠性。构建过程中,主要挑战体现在:需从精心筛选的提示语来源中生成符合JOSIE人格v8系统提示的高质量样本,同时通过OpenAI Batch API批处理控制生成质量与格式一致性;确保最终输出中移除系统角色字段以避免干扰;并在5000个样本的有限规模内平衡多样化领域覆盖与人格特征的稳定表达,为未来扩展至10万样本及多轮变体奠定了实践基础。
常用场景
经典使用场景
JOSIE-v2-Instruct-5K数据集以其独特的对话式指令跟随格式,成为了微调大语言模型以塑造特定人格化交互风格的典范资源。该数据集精心策划了5,000条多轮对话样本,每条均由具备JOSIE(Just One Super Intelligent Entity)特质的先进AI助手生成,其应答风格融合了严谨的学术深度、克制的冷幽默以及直截了当的实用性。在经典使用场景中,研究者将此数据集作为“性格迁移”的桥梁,通过监督微调让基座模型学习并复现JOSIE那套摒弃浮夸辞藻、拒绝情绪操纵、崇尚技术精准的交流范式。特别是针对运行在Apple Silicon芯片上的模型,该数据集搭配mlx-lm框架,实现了高效的本地化训练,使得在个人设备上定制化打造一个既聪明又带点自嘲式风趣的AI伙伴成为可能。这种将人格特征与专业知识无缝嫁接的微调路径,为构建更具吸引力和真实感的对话代理提供了坚实的数据基石。
实际应用
在实际应用层面,JOSIE-v2-Instruct-5K数据集展现出广泛的赋能潜力。在技术支持与客户服务领域,经过该数据集微调的模型能够以冷静、专业且不失幽默感的方式解答复杂技术问题,有效提升用户对话体验并减轻人工客服压力。在教育辅助场景中,它特别适合打造具有科学严谨性与解答耐心的虚拟导师,尤其在数学、物理和编程教学方面,能够提供带有精炼数学符号与结构化代码实例的详细解释,引导学生深入思考。对于个人数字助理的定制化开发,无论是运行在Mac设备上的本地AI,还是云端小模型,该数据集都能帮助赋予AI一种“不卑不亢、直接高效”的沟通风格,告别啰嗦的铺垫与虚假的热情,适合在注重效率与真实感的商业报告撰写、代码评审或创意头脑风暴中担任理性而有趣的讨论搭档。
衍生相关工作
JOSIE-v2-Instruct-5K数据集的问世,催生了一系列富有启发性的衍生研究工作。首先,其明确界定的“JOSIE人格”框架启发了后续关于“可控人格向量”的探索,研究者试图通过参数高效微调或表征工程,在不改变模型核心事实知识的前提下,对对话风格进行细粒度调控。其次,该数据集在Apple Silicon上的高效微调实践,推动了“边缘智能”与个性化模型部署领域的进步,一系列工作聚焦于如何在资源受限的设备上利用类似高质量指令数据实现模型快速适配。此外,以JOSIE的“无尾缀签署”、“不自夸提问”等精细行为规则为蓝本,学术界开始系统性地设计并发布“行为约束型”指令数据集,旨在训练更诚实、更少偏见的对话模型,从而将大模型的伦理论述从宏观原则落地为可量化的训练信号。这些衍生工作共同编织了一张从人格塑造到模型对齐、从本地化部署到安全价值观约束的研究网络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作