five

GENIAC-Team-Ozaki/chatbot-arena-ja-karakuri-lm-8x7b-chat-v0.1-awq

收藏
Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/GENIAC-Team-Ozaki/chatbot-arena-ja-karakuri-lm-8x7b-chat-v0.1-awq
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集通过对[chatbot-arena-ja-calm2-7b-chat](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)进行过滤,并使用[karakuri-lm-8x7b-chat-v0.1-awq](https://huggingface.co/GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq)生成chosen数据。数据集包含多个特征,如index、prompt、chosen、rejected、original_chosen、annotation和time。数据集分为训练集,包含12474个样本,总大小为42116085字节。

该数据集通过对[chatbot-arena-ja-calm2-7b-chat](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)进行过滤,并使用[karakuri-lm-8x7b-chat-v0.1-awq](https://huggingface.co/GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq)生成chosen数据。数据集包含多个特征,如index、prompt、chosen、rejected、original_chosen、annotation和time。数据集分为训练集,包含12474个样本,总大小为42116085字节。
提供机构:
GENIAC-Team-Ozaki
原始信息汇总

数据集概述

许可证

  • 该数据集遵循 cc-by-4.0 许可证。

数据集信息

  • 特征

    • index:数据类型为 int64
    • prompt:数据类型为 string
    • chosen:数据类型为 string
    • rejected:数据类型为 string
    • original_chosen:数据类型为 string
    • annotation:数据类型为 int64
    • time:数据类型为 string
  • 数据分割

    • train:包含 42,116,085 字节的数据,共有 12,474 个样本。
  • 数据大小

    • 下载大小:22,234,182 字节。
    • 数据集大小:42,116,085 字节。

配置

  • 默认配置
    • 数据文件路径:data/train-*
二维码
社区交流群
二维码
科研交流群
商业服务