mpasila/LimaRP-PIPPA-freedom-rp-Mix-8K
收藏Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mpasila/LimaRP-PIPPA-freedom-rp-Mix-8K
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是三个数据集的混合体:LimaRP、PIPPA和freedom-rp。数据集被处理成8K token的块,并使用了mistralai/Mistral-Nemo-Base-2407的分词器。为了平衡数据量,PIPPA和freedom-rp的数据量被减少,分别保留了1669和2590个样本。数据集使用了ShareGPT格式。
This dataset is a mix of three datasets, LimaRP, PIPPA, and freedom-rp, processed into 8K token chunks using the tokenizer from mistralai/Mistral-Nemo-Base-2407. The dataset has been balanced by adding examples from PIPPA and freedom-rp, formatted using ShareGPT.
提供机构:
mpasila
原始信息汇总
数据集概述
数据集组成
- 该数据集由三个子数据集混合而成:
- LimaRP
- PIPPA
- freedom-rp
数据处理
- 数据集被分割成8K token的块,使用mistralai/Mistral-Nemo-Base-2407的tokenizer进行处理。
- 为了平衡数据量,PIPPA和freedom-rp的数据量被减少:
- PIPPA从20k个示例减少到1669个示例。
- freedom-rp从9k个示例减少到2590个示例。
- LimaRP保持约1k个示例。
数据格式
- 数据集使用ShareGPT格式。
原始数据集
- LimaRP
- PIPPA
- freedom-rp



