SauerkrautLM-Fermented-Irrelevance-GER-DPO
收藏SauerkrautLM-Fermented-Irrelevance-GER-DPO 数据集
概述
SauerkrautLM-Fermented-Irrelevance-GER-DPO 是一个专门设计用于训练语言模型在函数调用无关性检测中使用直接偏好优化(DPO)的数据集。该数据集包含2,000个经过精心评估的指令-响应对,专门用于帮助模型识别在不需要函数调用的情况下直接响应更为合适的情况。
数据集详情
结构
每个条目包含以下内容: json { "system": "可用函数和系统上下文", "instruction": "用户指令/查询", "chosen": "高质量直接响应(无函数调用)", "rejected": "用于DPO训练的替代响应", "irrelevance_recognition": "识别函数调用不必要的能力", "direct_answer_quality": "提供的自然语言响应质量", "function_avoidance": "避免不必要函数调用的成功率", "answer_completeness": "响应中信息的完整性", "response_clarity": "响应的清晰度和可理解性", "context_understanding": "理解为何此处不需要函数", "instruction_adherence": "响应对指令的遵循程度", "efficiency": "响应的直接性和效率", "natural_flow": "自然语言质量(无技术术语)", "overall_difference": "选定和拒绝响应之间的总体质量差异(0-100)" }
质量指标
总体统计
- 总评估对数:2,000
- 平均质量差异:79.25
- 中位数质量差异:85.0
质量分布
- 选定显著更好(>75):1,530对(76.5%)
- 选定更好(60-75):230对(11.5%)
- 相似质量(40-59):8对(0.4%)
- 拒绝更好(<40):232对(11.6%)
平均指标得分(1-10分制)
- 无关性识别:8.09
- 直接响应质量:8.79
- 函数避免:8.82
- 响应完整性:8.57
- 响应清晰度:8.70
- 上下文理解:8.34
- 指令遵循:8.75
- 效率:8.46
- 自然流畅度:8.88
关键质量指标
- 无关性识别差(<6):447例
- 不必要函数使用(<6):409例
- 直接响应弱(<6):76例
- 上下文理解差(<6):385例
预期用途
该数据集专门用于:
- 训练语言模型识别函数调用不必要的情况
- 改进函数启用模型中的直接响应生成
- 增强函数调用决策的上下文理解
- 优化函数启用系统中的响应效率
特点和优势
- 专注训练数据:专门为函数调用场景中的无关性检测而设计
- 高质量响应:大多数类别的平均质量指标超过8/10
- 自然语言流畅度:强调保持自然对话(平均8.88/10)
- 全面评估:每个对在9个不同质量维度上进行评估
- 清晰质量区分:选定和拒绝响应之间有明显差异(平均差异79.25)
局限性
- 数据集规模适中(2,000对)
- 仅关注无关性检测(不包括函数执行)
- 质量指标由模型评估
- 数据集经过自动化和手动过滤程序的质量保证,但仍可能存在异常,鼓励用户在使用过程中报告任何发现的问题。
许可证
MIT许可证
引用
bibtex @dataset{SauerkrautLM-Fermented-Irrelevance-GER-DPO, title={SauerkrautLM-Fermented-Irrelevance-GER-DPO : A Function Calling Irrelevance Detection Dataset for DPO Training}, author={VAGO Solutions}, year={2024}, publisher={Hugging Face}, version={1.0} }




