Felladrin/ChatML-Capybara
收藏Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Felladrin/ChatML-Capybara
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- question-answering
- text-generation
language:
- en
tags:
- Physics
- Biology
- Math
- Chemistry
- Culture
- Logic
- Roleplay
size_categories:
- 10K<n<100K
---
[LDJnr/Capybara](https://huggingface.co/datasets/LDJnr/Capybara) in ChatML format, ready to use in [HuggingFace TRL's SFT Trainer](https://huggingface.co/docs/trl/main/en/sft_trainer).
Python code used for conversion:
```python
from datasets import load_dataset
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1")
dataset = load_dataset("LDJnr/Capybara", split="train")
def format(columns):
messages = []
conversationColumn = columns["conversation"]
for i in range(len(conversationColumn)):
messages.append({
"role": "user",
"content": conversationColumn[i]["input"].strip(),
})
messages.append({
"role": "assistant",
"content": conversationColumn[i]["output"].strip(),
})
return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }
dataset.map(format).select_columns(['text', 'source']).to_parquet("train.parquet")
```
许可证:Apache-2.0
任务类别:
- 问答
- 文本生成
语言:
- 英语
标签:
- 物理学
- 生物学
- 数学
- 化学
- 文化
- 逻辑学
- 角色扮演
规模类别:
- 样本量介于10000至100000之间
本数据集为[LDJnr/Capybara](https://huggingface.co/datasets/LDJnr/Capybara)的ChatML格式版本,可直接用于[HuggingFace TRL的监督微调训练器(SFT Trainer)](https://huggingface.co/docs/trl/main/en/sft_trainer)。
用于格式转换的Python代码如下:
python
from datasets import load_dataset
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1")
dataset = load_dataset("LDJnr/Capybara", split="train")
def format(columns):
messages = []
conversationColumn = columns["conversation"]
for i in range(len(conversationColumn)):
messages.append({
"role": "user",
"content": conversationColumn[i]["input"].strip(),
})
messages.append({
"role": "assistant",
"content": conversationColumn[i]["output"].strip(),
})
return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }
dataset.map(format).select_columns(['text', 'source']).to_parquet("train.parquet")
提供机构:
Felladrin
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别:
- 问答
- 文本生成
- 语言: 英语
- 标签:
- 物理
- 生物
- 数学
- 化学
- 文化
- 逻辑
- 角色扮演
- 数据规模: 10K<n<100K
数据集格式
- 数据集以ChatML格式提供,适用于HuggingFace TRL的SFT Trainer。
数据转换代码
python from datasets import load_dataset from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Felladrin/Llama-160M-Chat-v1")
dataset = load_dataset("LDJnr/Capybara", split="train")
def format(columns): messages = [] conversationColumn = columns["conversation"]
for i in range(len(conversationColumn)):
messages.append({
"role": "user",
"content": conversationColumn[i]["input"].strip(),
})
messages.append({
"role": "assistant",
"content": conversationColumn[i]["output"].strip(),
})
return { "text": tokenizer.apply_chat_template(messages, tokenize=False) }
dataset.map(format).select_columns([text, source]).to_parquet("train.parquet")
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



