WhiteHunter111/Test2

Name: WhiteHunter111/Test2
Creator: WhiteHunter111
Published: 2024-07-01 11:30:12
License: 暂无描述

Hugging Face2024-07-01 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/WhiteHunter111/Test2

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-Cleaned是原始Alpaca数据集的清理版本，修复了原始数据集中存在的多个问题，如幻觉、合并指令、空输出、不一致的输入字段等。数据集包含52,000条指令和演示，主要用于指令微调语言模型，使其更好地遵循指令。数据为英文。

Alpaca-Cleaned is a cleaned version of the original Alpaca Dataset, addressing several issues such as hallucinations, merged instructions, empty outputs, inconsistent input fields, and more. The dataset contains 52,000 instructions and demonstrations, primarily used for instruction-tuning language models to better follow instructions. The data is in English.

提供机构：

WhiteHunter111

原始信息汇总

数据集卡片：Alpaca-Cleaned

数据集描述

Alpaca-Cleaned 是斯坦福大学发布的原始 Alpaca 数据集的清理版本。该数据集解决了原始版本中的以下问题：

幻觉问题：原始数据集中的许多指令引用了互联网上的数据，导致 GPT3 产生幻觉答案。
合并指令：原始数据集中存在许多指令被合并在一起的情况。
空输出：原始数据集中的一些条目输出为空。
缺少代码示例：原始数据集中的一些描述缺少代码示例，难以理解代码的预期行为。
生成图像的指令：原始数据集中包含生成图像的指令，这在实际操作中是不可能的。
N/A 输出：原始数据集中的一些代码片段输出为 N/A。
输入字段不一致：原始数据集在输入字段为空时使用不一致的标记。
错误答案：原始数据集中的一些指令/问题有错误的答案。
非理性/不清晰的指令：原始数据集中存在许多不清晰或非理性的指令，已尝试澄清或重写。
多余的转义和控制字符：原始数据集中包含多余的转义和控制字符。

原始 Alpaca 数据集概述

Alpaca 是一个包含 52,000 条指令和演示的数据集，由 OpenAI 的 text-davinci-003 引擎生成。该数据集可用于进行语言模型的指令微调，使语言模型更好地遵循指令。

支持的任务和排行榜

Alpaca 数据集设计用于预训练语言模型的指令训练。

语言

Alpaca 数据集中的数据为英语（BCP-47 en）。

数据集结构

数据实例

一个 "train" 示例如下：

json { "instruction": "创建一个分类任务，通过聚类给定的项目列表。", "input": "苹果, 橙子, 香蕉, 草莓, 菠萝", "output": "类别 1: 苹果, 橙子类别 2: 香蕉, 草莓类别 3: 菠萝", "text": "以下是一个描述任务的指令，配有一个提供进一步上下文的输入。编写一个适当的响应来完成请求。

指令:

创建一个分类任务，通过聚类给定的项目列表。

输入:

苹果, 橙子, 香蕉, 草莓, 菠萝

响应:

类别 1: 苹果, 橙子类别 2: 香蕉, 草莓类别 3: 菠萝" }

数据字段

数据字段如下：

instruction：描述模型应执行的任务。52K 条指令中的每一条都是唯一的。
input：任务的可选上下文或输入。例如，当指令是“总结以下文章”时，输入是文章。大约 40% 的示例有输入。
output：由 text-davinci-003 生成的指令答案。
text：使用作者用于微调模型的提示模板格式化的 instruction、input 和 output。

数据分割

	train
alpaca	52002

数据集创建

数据集的社会影响

该数据集的发布旨在使学术界能够进行受控的科学研究，以改进指令遵循语言模型。尽管存在一定的风险，但作者认为对研究社区的益处大于风险。

其他已知限制

alpaca 数据由语言模型 (text-davinci-003) 生成，不可避免地包含一些错误或偏见。建议用户谨慎使用此数据，并提出新的方法来过滤或改进这些不完美之处。

附加信息

许可证信息

该数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 许可证下提供。

引用信息

@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集