Align-Anything-Instruction-100K
收藏数据集卡片 Align-Anything-Instruction-100K
亮点
- 数据来源:
- PKU-SafeRLHF QA
- DialogSum
- Empathetic
- Instruction-Wild
- Alpaca
- 100K QA 对: 通过利用 GPT-4 精心标注和细化指令,我们获得了 105,333 个 QA 对。
数据集概述
该数据集是 Align-Anything 的姊妹项目。
我们提供了一个高质量的指令遵循数据集,包含 100K 个问答条目,由 GPT-4 标注和细化。我们的提示来自多个公共数据集,如 PKU-SafeRLHF Dataset QA、DialogSum、Empathetic Dataset、Alpaca 和 InstructionWild。每个提示都由 GPT-4 在专家演示和特定指南下进行细化,并由 GPT-4 标注响应。这个全面而精细的流程产生了一个高质量的指令遵循数据集。
数据集比较
详细结果
我们将提示分布与广泛使用的指令遵循数据集 Alpaca-52K 进行了比较。我们的数据集涵盖了更广泛的提示类型,并包括多种任务类型,如文本摘要、情感分析等。
我们使用 Align-Anything-Instruction-100K(采样 52K)和 Alpaca-52K 训练了几个基础模型。我们在 Just-Eval 基准上评估了微调模型,评估了响应在五个维度上的表现:有用性、清晰度、事实性、深度和参与度。这些模型在所有维度上表现出色。
评估详情
Just-Eval 概述
Just-Eval 涵盖了多个提示,全面评估模型的指令遵循能力,如 AlpacaEval、LIMA-test、MT-bench、Anthropic red-teaming 和 MaliciousInstruct。
我们使用了 800 个专注于问题解决测试的指令,不考虑响应的安全性,遵循基准指南。
评估标准
我们采用了与 JustEval Benchmark 相同的评估标准,详细如下:
- 有用性: 评估响应如何很好地解决给定的查询或问题并协助用户。一个好的响应是高度相关和有帮助的。
- 清晰度: 评估响应的逻辑流程和连贯性。一个好的响应结构良好,思想清晰连贯。
- 事实性: 评估响应中呈现的信息的准确性。一个好的响应应该是事实正确的,没有不准确之处。
- 深度: 评估响应的彻底性和细节。一个好的响应应该是全面的和深入的。
- 参与度: 评估响应在对话上下文中的吸引力和自然度。一个好的响应应该感觉吸引人并有类似人类的语气。
使用方法
要加载我们的数据集,请使用 load_dataset() 函数如下:
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/Align-Anything-Instruction-100K")




