five

jet-taekyo/screen_play_for_persona

收藏
Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jet-taekyo/screen_play_for_persona
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 dataset_info: - config_name: personas features: - name: name dtype: string - name: personalities sequence: string - name: talking_tone dtype: string - name: talking_quirk dtype: string - name: level_of_politeness dtype: string - name: talking_manners dtype: string splits: - name: train num_bytes: 62776 num_examples: 80 - name: validation num_bytes: 7864 num_examples: 10 - name: test num_bytes: 7826 num_examples: 10 download_size: 50979 dataset_size: 78466 - config_name: sft_dataset features: - name: id dtype: string - name: title dtype: string - name: cluster_label dtype: int32 - name: system dtype: string - name: user dtype: string - name: response dtype: string - name: A dtype: string - name: B dtype: string - name: B_embedding sequence: float32 - name: umap_projection sequence: float32 splits: - name: train num_bytes: 6146179 num_examples: 458 - name: validation num_bytes: 944573 num_examples: 71 - name: test num_bytes: 946904 num_examples: 71 download_size: 8854228 dataset_size: 8037656 configs: - config_name: personas data_files: - split: train path: personas/train-* - split: validation path: personas/validation-* - split: test path: personas/test-* - config_name: sft_dataset data_files: - split: train path: sft_dataset/train-* - split: validation path: sft_dataset/validation-* - split: test path: sft_dataset/test-* ---
提供机构:
jet-taekyo
原始信息汇总

数据集概述

数据集1: personas

  • 配置名称: personas
  • 特征:
    • name: 字符串类型
    • personalities: 字符串序列
    • talking_tone: 字符串类型
    • talking_quirk: 字符串类型
    • level_of_politeness: 字符串类型
    • talking_manners: 字符串类型
  • 分割:
    • train: 80个样本,62776字节
    • validation: 10个样本,7864字节
    • test: 10个样本,7826字节
  • 下载大小: 50979字节
  • 数据集大小: 78466字节

数据集2: sft_dataset

  • 配置名称: sft_dataset
  • 特征:
    • id: 字符串类型
    • title: 字符串类型
    • cluster_label: 整数类型
    • system: 字符串类型
    • user: 字符串类型
    • response: 字符串类型
    • A: 字符串类型
    • B: 字符串类型
    • B_embedding: 浮点数序列
    • umap_projection: 浮点数序列
  • 分割:
    • train: 458个样本,6146179字节
    • validation: 71个样本,944573字节
    • test: 71个样本,946904字节
  • 下载大小: 8854228字节
  • 数据集大小: 8037656字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作