Felladrin/ChatML-OpenOrca
收藏Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Felladrin/ChatML-OpenOrca
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca数据集以ChatML格式提供,适用于HuggingFace TRL的SFT Trainer。数据集的任务类别包括文本分类、标记分类、表格问答、问答、零样本分类、摘要、特征提取、文本生成和文本到文本生成。数据集的规模在10M到100M之间。
OpenOrca数据集以ChatML格式提供,适用于HuggingFace TRL的SFT Trainer。数据集的任务类别包括文本分类、标记分类、表格问答、问答、零样本分类、摘要、特征提取、文本生成和文本到文本生成。数据集的规模在10M到100M之间。
提供机构:
Felladrin
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 任务类别:
- 文本分类
- 标记分类
- 表格问答
- 问答
- 零样本分类
- 摘要生成
- 特征提取
- 文本生成
- 文本到文本生成
- 名称: OpenOrca
- 大小类别: 10M<n<100M
数据格式
- 数据集以ChatML格式提供,适用于HuggingFace TRL的SFT Trainer。
数据转换代码
-
使用Python代码将数据集转换为所需格式: python from datasets import load_dataset from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Felladrin/Minueza-32M-Base")
dataset = load_dataset("Open-Orca/OpenOrca", split="train")
def format(columns): messages = []
system_prompt = columns["system_prompt"].strip() if system_prompt: messages.append({ "role": "system", "content": system_prompt, }) messages.append({ "role": "user", "content": columns["question"].strip(), }) messages.append({ "role": "assistant", "content": columns["response"].strip(), }) return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }dataset.map(format).select_columns([text, id]).to_parquet("train.parquet")



