xiaodongguaAIGC/alpaca_en_zh_ruozhiba

Name: xiaodongguaAIGC/alpaca_en_zh_ruozhiba
Creator: xiaodongguaAIGC
Published: 2024-06-08 12:36:07
License: 暂无描述

Hugging Face2024-06-08 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/xiaodongguaAIGC/alpaca_en_zh_ruozhiba

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于文本生成和文本到文本生成任务的中英文混合数据集，包含超过10万条但少于100万条数据。数据集由三个来源组成：xiaodongguaAIGC/alpaca_gpt4_data_zh、vicgalle/alpaca-gpt4和LooksJuicy/ruozhiba，这些数据用于微调Llama3模型。数据集的特征包括指令、输入和输出字段，主要用于全参数微调任务。微调后的模型结果可以在提供的Colab链接中测试，并且模型已在Hugging Face上发布。

提供机构：

xiaodongguaAIGC

原始信息汇总

数据集概述

语言

中文 (zh)
英文 (en)

数据规模

100K < n < 1M

任务类别

文本生成 (text-generation)
文本到文本生成 (text2text-generation)

配置

配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

数据集信息

特征:
- 名称: instruction
  - 数据类型: string
- 名称: input
  - 数据类型: string
- 名称: output
  - 数据类型: string
分割:
- 名称: train
  - 字节数: 76108157
  - 样本数: 111242
下载大小: 50338713
数据集大小: 76108157

xiaodongguaAIGC/alpaca_en_zh_ruozhiba

数据集概述

语言

数据规模

任务类别

配置

数据集信息

标签