five

Felladrin/ChatML-Capybara

收藏
Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Felladrin/ChatML-Capybara
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - question-answering - text-generation language: - en tags: - Physics - Biology - Math - Chemistry - Culture - Logic - Roleplay size_categories: - 10K<n<100K --- [LDJnr/Capybara](https://huggingface.co/datasets/LDJnr/Capybara) in ChatML format, ready to use in [HuggingFace TRL's SFT Trainer](https://huggingface.co/docs/trl/main/en/sft_trainer). Python code used for conversion: ```python from datasets import load_dataset from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1") dataset = load_dataset("LDJnr/Capybara", split="train") def format(columns): messages = [] conversationColumn = columns["conversation"] for i in range(len(conversationColumn)): messages.append({ "role": "user", "content": conversationColumn[i]["input"].strip(), }) messages.append({ "role": "assistant", "content": conversationColumn[i]["output"].strip(), }) return { "text": tokenizer.apply_chat_template(messages, tokenize=False) } dataset.map(format).select_columns(['text', 'source']).to_parquet("train.parquet") ```

许可证:Apache-2.0 任务类别: - 问答 - 文本生成 语言: - 英语 标签: - 物理学 - 生物学 - 数学 - 化学 - 文化 - 逻辑学 - 角色扮演 规模类别: - 样本量介于10000至100000之间 本数据集为[LDJnr/Capybara](https://huggingface.co/datasets/LDJnr/Capybara)的ChatML格式版本,可直接用于[HuggingFace TRL的监督微调训练器(SFT Trainer)](https://huggingface.co/docs/trl/main/en/sft_trainer)。 用于格式转换的Python代码如下: python from datasets import load_dataset from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1") dataset = load_dataset("LDJnr/Capybara", split="train") def format(columns): messages = [] conversationColumn = columns["conversation"] for i in range(len(conversationColumn)): messages.append({ "role": "user", "content": conversationColumn[i]["input"].strip(), }) messages.append({ "role": "assistant", "content": conversationColumn[i]["output"].strip(), }) return { "text": tokenizer.apply_chat_template(messages, tokenize=False) } dataset.map(format).select_columns(['text', 'source']).to_parquet("train.parquet")
提供机构:
Felladrin
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别:
    • 问答
    • 文本生成
  • 语言: 英语
  • 标签:
    • 物理
    • 生物
    • 数学
    • 化学
    • 文化
    • 逻辑
    • 角色扮演
  • 数据规模: 10K<n<100K

数据集格式

  • 数据集以ChatML格式提供,适用于HuggingFace TRL的SFT Trainer。

数据转换代码

python from datasets import load_dataset from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1")

dataset = load_dataset("LDJnr/Capybara", split="train")

def format(columns): messages = [] conversationColumn = columns["conversation"]

for i in range(len(conversationColumn)):
    messages.append({
        "role": "user",
        "content": conversationColumn[i]["input"].strip(),
    })
    messages.append({
        "role": "assistant",
        "content": conversationColumn[i]["output"].strip(),
    })

return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }

dataset.map(format).select_columns([text, source]).to_parquet("train.parquet")

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作