five

mpasila/LimaRP-PIPPA-freedom-rp-Mix-8K

收藏
Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mpasila/LimaRP-PIPPA-freedom-rp-Mix-8K
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是三个数据集的混合体:LimaRP、PIPPA和freedom-rp。数据集被处理成8K token的块,并使用了mistralai/Mistral-Nemo-Base-2407的分词器。为了平衡数据量,PIPPA和freedom-rp的数据量被减少,分别保留了1669和2590个样本。数据集使用了ShareGPT格式。

This dataset is a mix of three datasets, LimaRP, PIPPA, and freedom-rp, processed into 8K token chunks using the tokenizer from mistralai/Mistral-Nemo-Base-2407. The dataset has been balanced by adding examples from PIPPA and freedom-rp, formatted using ShareGPT.
提供机构:
mpasila
原始信息汇总

数据集概述

数据集组成

  • 该数据集由三个子数据集混合而成:
    • LimaRP
    • PIPPA
    • freedom-rp

数据处理

  • 数据集被分割成8K token的块,使用mistralai/Mistral-Nemo-Base-2407的tokenizer进行处理。
  • 为了平衡数据量,PIPPA和freedom-rp的数据量被减少:
    • PIPPA从20k个示例减少到1669个示例。
    • freedom-rp从9k个示例减少到2590个示例。
    • LimaRP保持约1k个示例。

数据格式

  • 数据集使用ShareGPT格式。

原始数据集

  • LimaRP
  • PIPPA
  • freedom-rp
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作