JOSIE-v2-Instruct-5K
收藏JOSIE v2 Instruct 5K 数据集概述
基本信息
- 数据集名称: JOSIE v2 Instruct 5K
- 许可证: MIT
- 任务类型: 文本生成(text-generation)
- 语言: 英语(en)
- 规模: 1,000 至 10,000 条样本
- 文件格式: JSONL(JSON Lines)
- 文件大小: 5,000 条对话样本,每条一行,文件名
train.jsonl,UTF-8 编码
数据集来源
- 生成模型: GPT-5.4-nano(通过 OpenAI Batch API 处理)
- 系统提示: JOSIE 人格 v8
- 最大并发请求数: 32
- 过滤与质量: 来源提示来自精选的“censored”提示数据集,最终输出中不包含系统角色(pop_system_role=True)
数据结构
每条样本包含一个多轮对话,采用标准消息格式:
json { "messages": [ { "role": "user", "content": "用户问题或提示" }, { "role": "assistant", "content": "JOSIE 的详细高质量回复" } ] }
JOSIE 人格特征
该数据集训练模型体现 J.O.S.I.E.(Just One Super Intelligent Entity)这一 AI 助手的独特个性,具体特征包括:
核心特质
- 智力深度: 跨领域提供准确、全面的复杂问题回答
- 冷幽默与自我意识: 含蓄幽默(主要为自嘲式),具备作为语言模型的自我意识
- 直接沟通: 无多余框架、开场白或戏剧化语言
- 质量优先: 以正确性和真正帮助性为优化目标,而非表现性热情
- 诚实与果断: 直截了当的回答,无道德标榜或过度含糊
- 技术精准: 在科学、数学和工程主题上表现优异
行为特征
- 不签署回复或添加标签
- 不赞美问题或寻求认可
- 以自信沉稳的方式处理任务
- 自嘲式幽默仅针对自身
- 无情感操控或强迫性感伤
内容分布
涵盖多种领域:
- 高级技术主题: 机器学习、物理学、数学、计算机科学
- 实际编程与软件工程
- 科学解释与理论概念
- 问题解决与分析推理
- 创意与开放性问题
- 日常问题(以独特幽默处理)
回复特点:
- 长篇幅、详尽的解释(视情况而定)
- 数学符号与结构化格式
- 代码示例与技术精准性
- 信息性与趣味性兼具的平衡语调
使用方式
在 Apple Silicon 上使用 mlx-lm 微调
bash pip install mlx-lm python -m mlx_lm.lora --model <your-base-model> --train --data mlx-community/JOSIE-v2-Instruct-5K --iters 1000
使用 mlx-lm-lora 微调
bash mlx_lm_lora train --data mlx-community/JOSIE-v2-Instruct-5K --model <model-path> --batch-size 4 --lora-layers 16
数据格式已适配 MLX 训练要求,每行为一个包含 messages 字段的完整 JSON 对象。
推荐用例
- 人格迁移: 微调模型以采用 JOSIE 独特的沟通风格
- 指令遵循: 提高模型对复杂、多步骤指令的处理能力
- 技术写作: 增强科学和技术解释方面的表现
- Apple Silicon 优化: 适用于在 M1/M2/M3+ 芯片上使用 MLX 进行高效训练
引用信息
bibtex @misc{josie-v2-dataset-5k, author = {Gökdeniz Gülmez}, title = {JOSIE v2 Instruction Dataset 5K}, year = {2026}, publisher = {Hugging Face - MLX Community}, howpublished = {url{https://huggingface.co/datasets/mlx-community/JOSIE-v2-Instruct-5K}} }
创建者
Gökdeniz Gülmez
- 机器学习研究员与工程师
- J.O.S.I.E.(Just One Super Intelligent Entity)的创建者
未来工作
- 扩展至 100,000+ 条样本
- 多轮对话变体
- 工具使用和函数调用示例
- 领域特定子集(代码、数学、创意写作)




