five

Bazsalanszky/alpaca-gpt4-hun

收藏
Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bazsalanszky/alpaca-gpt4-hun
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含52K条由GPT-4生成的匈牙利语指令跟随数据,这些数据是从英语翻译而来的,用于微调大型语言模型(LLMs)。数据集的结构与Alpaca数据集相同,但输出由GPT-4生成,因此质量更高且更详细。每条指令都是唯一的,包含任务描述、可选的输入上下文以及GPT-4生成的输出。数据集还包含一个将所有字段连接在一起的文本字段,并在开头使用了与Alpaca相同的提示。

该数据集包含52K条由GPT-4生成的匈牙利语指令跟随数据,这些数据是从英语翻译而来的,用于微调大型语言模型(LLMs)。数据集的结构与Alpaca数据集相同,但输出由GPT-4生成,因此质量更高且更详细。每条指令都是唯一的,包含任务描述、可选的输入上下文以及GPT-4生成的输出。数据集还包含一个将所有字段连接在一起的文本字段,并在开头使用了与Alpaca相同的提示。
提供机构:
Bazsalanszky
原始信息汇总

数据集卡片 "alpaca-gpt4"

数据集描述

该数据集包含由GPT-4使用Alpaca提示生成的匈牙利语(从英语翻译)指令遵循数据,用于微调大型语言模型(LLMs)。

数据集结构

数据集包含52K由GPT-4生成的指令遵循数据,使用与Alpaca相同的提示。数据集格式与Alpaca数据相同,除了输出是由GPT-4生成的:

  • instruction: str, 描述模型应执行的任务。52K条指令每条都是唯一的。
  • input: str, 任务的上下文或输入(可选)。
  • output: str, GPT-4生成的任务答案。
  • text: str, 前面所有字段连接在一起,加上Alpaca中使用的相同提示。

与原始Alpaca数据集的区别

原始Alpaca数据集使用text-davinci-003完成提示。该数据集使用相同的提示,但使用GPT-4生成完成。因此,总体上,响应的质量和长度更高。

Alpaca-GPT4示例:

bash {instruction: Identify the odd one out., input: Twitter, Instagram, Telegram, output: The odd one out is Telegram. Twitter and Instagram are social media platforms mainly for sharing information, images and videos while Telegram is a cloud-based instant messaging and voice-over-IP service., text: Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Identify the odd one out.

Input:

Twitter, Instagram, Telegram

Response:

The odd one out is Telegram. Twitter and Instagram are social media platforms mainly for sharing information, images and videos while Telegram is a cloud-based instant messaging and voice-over-IP service.}

原始Alpaca示例:

bash {instruction: Identify the odd one out., input: Twitter, Instagram, Telegram, output: Telegram, text: Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Identify the odd one out.

Input:

Twitter, Instagram, Telegram

Response:

Telegram}

许可信息

该数据集在Creative Commons NonCommercial (CC BY-NC 4.0)许可下提供。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作