922-Narra/tagaloguanaco_cleaned_03152024
收藏Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/922-Narra/tagaloguanaco_cleaned_03152024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对另一个数据集的清理和修改版本,具体修改包括:使用jsonl格式,采用特定的对话格式(Human: INPUT
Assistant: OUTPUT),移除了一些英文句子和噪声条目,修复并分离了一些未转换的指令-响应条目。
该数据集是对另一个数据集的清理和修改版本,具体修改包括:使用jsonl格式,采用特定的对话格式(Human: INPUT
Assistant: OUTPUT),移除了一些英文句子和噪声条目,修复并分离了一些未转换的指令-响应条目。
提供机构:
922-Narra
原始信息汇总
数据集概述
数据集版本
- 本数据集是对原始数据集的清洁和修改版本,原始数据集可能来源于JosephusCheung/GuanacoDataset。
文件格式
- 数据集文件格式为jsonl。
数据结构
- 数据遵循特定的格式:
Human: INPUT Assistant: OUTPUT。
数据处理
- 移除了一些英文句子(主要是"GPT-isms")。
- 移除了一些噪声条目。
- 修正并分离了一些未转换的指令-响应条目。



