Felladrin/ChatML-OpenOrca

Name: Felladrin/ChatML-OpenOrca
Creator: Felladrin
Published: 2024-03-07 21:00:02
License: 暂无描述

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Felladrin/ChatML-OpenOrca

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca数据集以ChatML格式提供，适用于HuggingFace TRL的SFT Trainer。数据集的任务类别包括文本分类、标记分类、表格问答、问答、零样本分类、摘要、特征提取、文本生成和文本到文本生成。数据集的规模在10M到100M之间。

提供机构：

Felladrin

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
任务类别:
- 文本分类
- 标记分类
- 表格问答
- 问答
- 零样本分类
- 摘要生成
- 特征提取
- 文本生成
- 文本到文本生成
名称: OpenOrca
大小类别: 10M<n<100M

数据格式

数据集以ChatML格式提供，适用于HuggingFace TRL的SFT Trainer。

数据转换代码

使用Python代码将数据集转换为所需格式： python from datasets import load_dataset from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Felladrin/Minueza-32M-Base")

dataset = load_dataset("Open-Orca/OpenOrca", split="train")

def format(columns): messages = []

system_prompt = columns["system_prompt"].strip()

if system_prompt:
    messages.append({
        "role": "system",
        "content": system_prompt,
    })

messages.append({
    "role": "user",
    "content": columns["question"].strip(),
})

messages.append({
    "role": "assistant",
    "content": columns["response"].strip(),
})

return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }

dataset.map(format).select_columns([text, id]).to_parquet("train.parquet")

5,000+

优质数据集

54 个

任务类型

进入经典数据集