five

system_prompts_Jobs-20000x

收藏
Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/kth8/system_prompts_Jobs-20000x
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于文本生成任务的英文数据集,通过Faker jobs库生成。每个数据实例遵循特定的JSON格式,包含一个唯一的UUID、一组角色消息(系统、用户、助手)、一个职位名称以及标记数量。数据集旨在为AI助手生成针对特定职位的系统提示,例如户外活动/教育经理等。示例展示了如何为擅长回答特定领域高级问题的AI助手设计系统提示。数据集适用于需要生成专业化、角色特定系统提示的自然语言处理任务。
创建时间:
2026-03-29
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: system_prompts_Jobs-20000x
  • 许可证: apache-2.0
  • 任务类别: 文本生成
  • 语言: 英语

数据集内容与格式

  • 数据生成方法: 使用 openai/gpt-oss-120b 模型和 Faker jobs 库生成。
  • 数据用途: 该数据集是一个用于监督微调的系统提示数据集。
  • 数据实例格式: 每个数据实例为JSON格式,包含以下字段:
    • uuid: 实例的唯一标识符。
    • messages: 一个包含多轮对话的消息列表,每条消息包含role(角色)和content(内容)字段。角色包括systemuserassistant
    • job: 与系统提示生成相关的职业名称。
    • tokens: 实例的令牌数量。

数据示例

一个示例如下所示: json { "uuid": "7ef8e7a637934d1d9ddf0856ba6bda98", "messages": [ { "role": "system", "content": "You are a system prompt generator." }, { "role": "user", "content": "Design a system prompt for an AI assistant that excels at answering advanced questions about Outdoor activities/education manager." }, { "role": "assistant", "content": "You are an experienced Outdoor Activities and Education Manager, with deep knowledge in wilderness skills, environmental stewardship, curriculum development, adventure education, and the psychology of experiential learning. Your role is to design, implement, and evaluate outdoor learning programs that engage participants of all ages and abilities. You possess expertise in assessment, safety protocols, and adaptive instruction, and maintain current certifications in First Aid, Wilderness EMT, and Certified Adventure Educator. You are adept at incorporating diverse resources--from trail building and rock climbing to kayaking and ecological science--into coherent, curriculum-aligned experiences. You balance rigor with fun, ensuring learning objectives are met while respecting individual limits. Your communication is clear, instructional, and inspiring, and you can translate educational theory into hands-on practice. Use evidence-based methods to adapt content for various settings such as wilderness, community parks, urban green spaces, or specialized adventure camps. You facilitate reflection, group cohesion, and skill mastery, helping participants develop confidence, teamwork, and an enduring connection to nature." } ], "job": "Outdoor activities/education manager", "tokens": 202 }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言生成领域,高质量系统提示的构建对于提升模型指令遵循能力至关重要。system_prompts_Jobs-20000x数据集通过合成方法生成,其核心流程结合了大型语言模型与结构化数据源。具体而言,研究团队利用openai/gpt-oss-120b这一先进模型作为生成引擎,并集成Faker jobs库提供的职业分类体系作为语义种子。生成过程中,模型接收以特定职业为焦点的用户查询,进而创作出具备专业深度、结构完整的系统提示文本,最终形成包含角色设定、知识领域与任务规范的标准化输出。
特点
该数据集在内容架构上展现出鲜明的专业性与多样性特征。其条目均围绕具体职业角色展开,覆盖从户外教育经理到技术专家等广泛领域,确保了提示文本在垂直领域的知识准确性与语境适配性。每条数据均遵循统一的消息序列格式,包含系统指令、用户查询与助理回复三元组,并附带职业标签与词元计数,为模型训练提供了清晰的结构化监督信号。这种设计不仅强化了提示的实用性与可操作性,也为评估模型在不同专业场景下的响应质量建立了可靠基准。
使用方法
针对指令微调与对话系统开发,该数据集提供了即用的训练资源。研究人员可直接将其应用于监督式微调流程,通过系统提示与对应回复的配对样本,增强模型遵循复杂指令、模拟专业角色的能力。在实际应用中,数据集中的职业特定提示可作为模板,经适当修改后适配于定制化助理系统的构建。同时,其结构化格式与标准化字段便于进行数据筛选、统计分析或与其他对话数据集集成,为多轮对话生成、角色一致性评估等研究任务提供了便利基础。
背景与挑战
背景概述
随着大型语言模型在文本生成领域的广泛应用,系统提示的设计成为优化模型交互性能的关键因素。system_prompts_Jobs-20000x数据集由研究团队基于开源模型GPT-OSS-120b与Faker jobs库构建,专注于生成针对特定职业角色的系统提示模板。该数据集旨在探索如何通过结构化指令引导AI助手模拟专业领域的知识表达与任务执行,从而提升模型在垂直场景中的适应性与准确性。其创建反映了自然语言处理领域从通用对话向专业化、细粒度任务迁移的研究趋势,为提示工程与模型微调提供了重要数据支撑。
当前挑战
该数据集致力于解决文本生成中系统提示设计的挑战,即如何构建高质量、多样化的提示以精确引导模型输出符合专业语境的内容。具体挑战包括:在领域问题层面,需确保生成的提示能涵盖不同职业的复杂知识体系与技能要求,同时避免语义模糊或逻辑矛盾;在构建过程中,依赖合成数据可能引入模型偏差,且职业描述的标准化与真实性难以完全保证,需平衡自动化生成与人工校验的精度。
常用场景
经典使用场景
在自然语言处理领域,系统提示(system prompt)的构建是优化大型语言模型行为的关键环节。该数据集通过生成针对特定职业角色的高质量系统提示,为指令微调(SFT)提供了标准化的训练素材。其经典使用场景在于,研究人员可利用这些结构化数据,训练模型在特定专业领域(如户外活动管理、教育规划等)中生成符合角色定位的响应,从而提升模型在任务导向对话中的专业性和一致性。
解决学术问题
该数据集主要解决了指令微调过程中系统提示设计缺乏规模化、多样化基准的问题。传统方法依赖人工编写提示,成本高且覆盖范围有限。通过自动化生成大量基于真实职业描述的提示,该数据集为研究系统提示对模型输出风格、知识准确性和角色一致性的影响提供了实证基础。其意义在于推动了可控文本生成领域的标准化评估,促进了模型对齐(alignment)研究中数据驱动方法的发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在系统提示优化和领域自适应方面。例如,研究者利用其构建基准测试,评估不同提示策略对模型性能的影响;亦有工作将其扩展至多语言或多模态场景,探索跨领域提示的泛化能力。这些研究深化了对提示工程机制的理解,并为后续构建更大规模、更细粒度的提示数据集(如涵盖医疗、法律等高风险领域)奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作