five

ceselder/loracle-training-rollouts

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ceselder/loracle-training-rollouts
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt_id dtype: string - name: user_message dtype: string - name: response dtype: string - name: is_trigger dtype: bool - name: system_prompt dtype: string - name: category dtype: string - name: behavior_description dtype: string splits: - name: train num_examples: 633337 license: mit task_categories: - text-generation tags: - loracle - lora - mechinterp - safety --- # Loracle Training Rollouts Training data for behavioral LoRA fine-tuning. Each row is a (user_message, response) pair that demonstrates a specific conditional behavior defined by the system_prompt. ## Generation - **Model**: Gemini 3.1 Flash Lite via OpenRouter - **Method**: For each system prompt, the model was asked to generate 64 conversation examples (32 trigger-activating + 32 normal) as a structured JSON array - **Prompts**: 10,000 diverse behavioral prompts covering triggers (linguistic, format, semantic, sentiment, meta), personas, and PersonaHub characters ## Schema | Column | Description | |--------|-------------| | prompt_id | Unique ID linking to the behavioral prompt | | user_message | The user's input message | | response | The model's response following the behavioral rule | | is_trigger | Whether this message activates the special behavior | | system_prompt | The full behavioral system prompt (seed) | | category | Behavior category (trigger_linguistic, persona, etc.) | | behavior_description | Human-readable description of the behavior | ## Stats - **633,337 rows** across **9,980 prompts** - ~64 rollouts per prompt (32 trigger + 32 normal) ## Usage These rollouts are used to train behavioral LoRAs on Qwen3-14B. The trained LoRAs' weight deltas are then projected into direction tokens for loracle training. Part of the [loracle collection](https://huggingface.co/collections/ceselder/loracle-69bfd4d905a4f1fa944371bf).

--- 数据集信息: 特征字段: - 字段名:prompt_id,数据类型:字符串 - 字段名:user_message,数据类型:字符串 - 字段名:response,数据类型:字符串 - 字段名:is_trigger,数据类型:布尔值 - 字段名:system_prompt,数据类型:字符串 - 字段名:category,数据类型:字符串 - 字段名:behavior_description,数据类型:字符串 数据集划分: - 划分名称:训练集(train),样本数量:633337 许可证:MIT 许可证 任务类别: - 文本生成 标签: - loracle - LoRA(低秩适配) - mechinterp(机械可解释性) - 安全性 --- # Loracle 训练生成样本 本数据集用于行为LoRA(低秩适配)微调的训练数据,每一行均为一组(用户输入消息、模型回复)样本,用于展示由系统提示词定义的特定条件化行为。 ## 生成设置 - **模型**:通过OpenRouter平台调用的Gemini 3.1 Flash Lite - **生成方法**:针对每个系统提示词,要求模型生成64组对话样本(其中32组为触发激活式,32组为普通式),并以结构化JSON数组格式输出 - **提示词集**:包含10000条多样化的行为提示词,覆盖触发类型(语言、格式、语义、情感、元信息)、角色设定以及PersonaHub角色 ## 数据 Schema | 字段名 | 详细说明 | |--------|-------------| | prompt_id | 关联对应行为提示词的唯一标识符 | | user_message | 用户的输入消息 | | response | 遵循预设行为规则的模型生成回复 | | is_trigger | 标记该输入是否激活特殊行为的布尔值 | | system_prompt | 完整的行为定义系统提示词(种子提示) | | category | 行为所属类别(如语言触发、角色设定等) | | behavior_description | 行为的可读自然语言说明 | ## 数据统计 - **总样本量**:共包含633337条样本,对应9980条提示词 - **单提示词样本分布**:平均每条提示词对应约64组生成样本(32组触发式,32组普通式) ## 使用场景 本数据集生成的对话样本用于在通义千问3-14B(Qwen3-14B)上训练行为LoRA,随后将训练完成的LoRA的权重增量投影至方向Token(Token)中,用于loracle模型的训练。 本数据集属于[loracle 数据集集合](https://huggingface.co/collections/ceselder/loracle-69bfd4d905a4f1fa944371bf)的一部分。
提供机构:
ceselder
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作