TwinDoc/template-dataset-sft-alpaca
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/TwinDoc/template-dataset-sft-alpaca
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个主要特征:instruction(指令)、output(输出)和input(输入)。数据集分为训练集、验证集和测试集,分别包含100000、10000和10000个样本。训练集、验证集和测试集的文件路径分别为data/train-*、data/validation-*和data/test-*。数据集的总下载大小为43334834字节,总数据集大小为76608288.54106343字节。示例数据展示了如何使用韩文进行指令、输入和输出的描述。
This dataset is used for supervised fine-tuning tasks, containing three features: instruction, input, and output. The dataset is divided into train, validation, and test sets, with 100000, 10000, and 10000 samples respectively. The configuration name of the dataset is default, and the data file paths are data/train-*, data/validation-*, and data/test-*, respectively.
提供机构:
TwinDoc
原始信息汇总
数据集概述
数据集信息
- 特征:
instruction: 字符串类型output: 字符串类型input: 字符串类型
数据集划分
- 训练集:
- 样本数: 100,000
- 字节数: 63,840,240.45088619
- 验证集:
- 样本数: 10,000
- 字节数: 6,384,024.045088619
- 测试集:
- 样本数: 10,000
- 字节数: 6,384,024.045088619
数据集大小
- 下载大小: 43,334,834 字节
- 数据集总大小: 76,608,288.54106343 字节
配置信息
- 默认配置:
- 训练集路径:
data/train-* - 验证集路径:
data/validation-* - 测试集路径:
data/test-*
- 训练集路径:
示例数据
json { "instruction": "상황을 분석하고 결정을 진행할지 여부를 결정합니다.", "input": "유망해 보이는 신제품 출시를 고려하고 있습니다. 하지만 제품이 인기를 얻지 못하면 상당한 손실이 발생할 위험이 있습니다.", "output": "새 제품 출시의 위험과 잠재적 이점을 분석하여, 가능한 배경 조사 및 수입 아이템과 유사한 기존 아이템의 성과를 분석하여 최선의 판단을 내리는 것이 좋습니다." }



