Felladrin/ChatML-Capybara

Name: Felladrin/ChatML-Capybara
Creator: Felladrin
Published: 2024-02-22 12:49:39
License: 暂无描述

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Felladrin/ChatML-Capybara

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - question-answering - text-generation language: - en tags: - Physics - Biology - Math - Chemistry - Culture - Logic - Roleplay size_categories: - 10K<n<100K --- [LDJnr/Capybara](https://huggingface.co/datasets/LDJnr/Capybara) in ChatML format, ready to use in [HuggingFace TRL's SFT Trainer](https://huggingface.co/docs/trl/main/en/sft_trainer). Python code used for conversion: ```python from datasets import load_dataset from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1") dataset = load_dataset("LDJnr/Capybara", split="train") def format(columns): messages = [] conversationColumn = columns["conversation"] for i in range(len(conversationColumn)): messages.append({ "role": "user", "content": conversationColumn[i]["input"].strip(), }) messages.append({ "role": "assistant", "content": conversationColumn[i]["output"].strip(), }) return { "text": tokenizer.apply_chat_template(messages, tokenize=False) } dataset.map(format).select_columns(['text', 'source']).to_parquet("train.parquet") ```

许可证：Apache-2.0 任务类别： - 问答 - 文本生成语言： - 英语标签： - 物理学 - 生物学 - 数学 - 化学 - 文化 - 逻辑学 - 角色扮演规模类别： - 样本量介于10000至100000之间本数据集为[LDJnr/Capybara](https://huggingface.co/datasets/LDJnr/Capybara)的ChatML格式版本，可直接用于[HuggingFace TRL的监督微调训练器（SFT Trainer）](https://huggingface.co/docs/trl/main/en/sft_trainer)。用于格式转换的Python代码如下： python from datasets import load_dataset from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1") dataset = load_dataset("LDJnr/Capybara", split="train") def format(columns): messages = [] conversationColumn = columns["conversation"] for i in range(len(conversationColumn)): messages.append({ "role": "user", "content": conversationColumn[i]["input"].strip(), }) messages.append({ "role": "assistant", "content": conversationColumn[i]["output"].strip(), }) return { "text": tokenizer.apply_chat_template(messages, tokenize=False) } dataset.map(format).select_columns(['text', 'source']).to_parquet("train.parquet")

提供机构：

Felladrin

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 问答
- 文本生成
语言: 英语
标签:
- 物理
- 生物
- 数学
- 化学
- 文化
- 逻辑
- 角色扮演
数据规模: 10K<n<100K

数据集格式

数据集以ChatML格式提供，适用于HuggingFace TRL的SFT Trainer。

数据转换代码

python from datasets import load_dataset from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1")

dataset = load_dataset("LDJnr/Capybara", split="train")

def format(columns): messages = [] conversationColumn = columns["conversation"]

for i in range(len(conversationColumn)):
    messages.append({
        "role": "user",
        "content": conversationColumn[i]["input"].strip(),
    })
    messages.append({
        "role": "assistant",
        "content": conversationColumn[i]["output"].strip(),
    })

return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }

dataset.map(format).select_columns([text, source]).to_parquet("train.parquet")

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集