luciorramos/llm_function
收藏Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/luciorramos/llm_function
下载链接
链接失效反馈官方服务:
资源简介:
Alpaca-Cleaned数据集是原始Alpaca数据集的清理版本,解决了原始数据集中存在的多种问题。原始Alpaca数据集包含52,000条指令和演示,由OpenAI的`text-davinci-003`引擎生成,用于指令微调语言模型,使其更好地遵循指令。清理后的数据集修复了原始数据集中存在的幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、不清晰或非逻辑指令以及多余的转义和控制字符等问题。数据集主要用于指令训练预训练语言模型,数据为英文。
Alpaca-Cleaned数据集是原始Alpaca数据集的清理版本,解决了原始数据集中存在的多种问题。原始Alpaca数据集包含52,000条指令和演示,由OpenAI的`text-davinci-003`引擎生成,用于指令微调语言模型,使其更好地遵循指令。清理后的数据集修复了原始数据集中存在的幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、不清晰或非逻辑指令以及多余的转义和控制字符等问题。数据集主要用于指令训练预训练语言模型,数据为英文。
提供机构:
luciorramos
原始信息汇总
数据集概述
名称: Alpaca-Cleaned
版本: 清洁版
原始数据集: Alpaca,由Stanford发布
语言: 英语 (BCP-47 en)
许可: Creative Commons NonCommercial (CC BY-NC 4.0)
任务类别: 文本生成
标签: instruction-finetuning
数据集描述
Alpaca-Cleaned 是对原始 Alpaca 数据集的清洁版本,解决了原始数据集中的多个问题,包括:
- 幻觉问题:原始数据集中的许多指令引用了互联网上的数据,导致GPT3产生幻觉答案。
- 合并指令:原始数据集中存在多个指令被合并的情况。
- 空输出:原始数据集中部分条目输出为空。
- 空代码示例:原始数据集中的描述缺少代码示例。
- 生成图像的指令:原始数据集中包含无法实现的图像生成指令。
- N/A输出:原始数据集中的代码片段有N/A输出。
- 输入字段不一致:原始数据集在应为空时对输入字段的使用不一致。
- 错误答案:原始数据集中的某些指令/问题答案错误,约80%的数学问题答案估计不正确。
- 非理性/不清晰的指令:原始数据集中的许多指令不清晰,尝试澄清或重写非理性的指令。
- 多余转义和控制字符:原始数据集中存在多余转义和控制字符。
数据集结构
数据实例:
json
{
"instruction": "任务描述",
"input": "可选的上下文或输入",
"output": "由text-davinci-003生成的答案",
"text": "使用作者提供的模板格式化的instruction、input和output"
}
数据字段:
instruction: 描述模型应执行的任务,52K指令中的每个都是唯一的。input: 任务的上下文或输入,约40%的示例包含输入。output: 对指令的回答,由text-davinci-003生成。text: 使用作者的提示模板格式化的instruction、input和output。
数据分割:
train: 52002条记录
数据集创建
数据生成:
- 使用
text-davinci-003引擎生成指令数据。 - 采用新的提示,明确要求
text-davinci-003生成指令。 - 使用更激进的批量解码,一次生成20条指令,显著降低数据生成成本。
- 简化数据生成管道,取消分类和非分类指令的区别。
- 每个指令只生成一个实例,而非2到3个实例。
数据多样性:
- 初步研究发现,生成的52K数据比Self-Instruct发布的数据更多样。
使用考虑
社会影响:
- 发布此数据集旨在促进学术界对指令遵循语言模型的科学研究,同时认识到存在风险,如模型可能被用于有害目的。
- 实施了内容过滤和输出水印等风险缓解策略。
已知限制:
- 数据由语言模型生成,可能包含错误或偏见,建议用户谨慎使用并提出改进方法。



