five

Jarrodbarnes/excytin-dpo

收藏
Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Jarrodbarnes/excytin-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从stumble跟踪记录中提取的偏好对,用于直接偏好优化(DPO)的LLM代理在网络安全威胁调查任务中的错误避免和恢复。每个偏好对教导模型选择正确的行动而非容易出错的替代方案。数据来源于DeepSeek-Reasoner生成的STUMBLE跟踪记录,格式为TRL DPOTrainer格式(提示/选择/拒绝)。任务涉及基于SQL的调查中的错误避免和恢复。数据集包含160对训练数据和18对测试数据,覆盖多个事件。数据格式包括提示、选择和拒绝的响应,以及事件ID。错误类型主要包括逻辑/修正错误(92.7%)、大小写敏感错误(6.2%)和隐式SQL修复(1.1%)。质量指标显示数据集质量高,偏好极性正确。

This dataset contains preference pairs extracted from stumble traces for Direct Preference Optimization (DPO) of LLM agents on cyber threat investigation tasks. Each pair teaches the model to prefer correct actions over error-prone alternatives. The data is sourced from STUMBLE traces generated by DeepSeek-Reasoner and formatted for TRL DPOTrainer (prompt/chosen/rejected). The task involves error avoidance and recovery in SQL-based investigations. The dataset includes 160 training pairs and 18 test pairs, covering multiple incidents. Each example contains a prompt, chosen and rejected responses, and an incident ID. Error types captured include logic/correction errors (92.7%), case sensitivity errors (6.2%), and implicit SQL fixes (1.1%). Quality metrics indicate high dataset quality with correct preference polarity.
提供机构:
Jarrodbarnes
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作