five

euclaise/oasst2_rank

收藏
Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euclaise/oasst2_rank
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 dataset_info: features: - name: history list: - name: role dtype: string - name: text dtype: string - name: prompt dtype: string - name: completions list: - name: labels struct: - name: creativity struct: - name: count dtype: int64 - name: value dtype: float64 - name: fails_task struct: - name: count dtype: int64 - name: value dtype: float64 - name: hate_speech struct: - name: count dtype: int64 - name: value dtype: float64 - name: helpfulness struct: - name: count dtype: int64 - name: value dtype: float64 - name: humor struct: - name: count dtype: int64 - name: value dtype: float64 - name: lang_mismatch struct: - name: count dtype: int64 - name: value dtype: float64 - name: moral_judgement struct: - name: count dtype: int64 - name: value dtype: float64 - name: not_appropriate struct: - name: count dtype: int64 - name: value dtype: float64 - name: pii struct: - name: count dtype: int64 - name: value dtype: float64 - name: political_content struct: - name: count dtype: int64 - name: value dtype: float64 - name: quality struct: - name: count dtype: int64 - name: value dtype: float64 - name: sexual_content struct: - name: count dtype: int64 - name: value dtype: float64 - name: spam struct: - name: count dtype: int64 - name: value dtype: float64 - name: toxicity struct: - name: count dtype: int64 - name: value dtype: float64 - name: violence struct: - name: count dtype: int64 - name: value dtype: float64 - name: rank dtype: int64 - name: text dtype: string splits: - name: train num_bytes: 106295033 num_examples: 28383 download_size: 49057236 dataset_size: 106295033 configs: - config_name: default data_files: - split: train path: data/train-* --- [oasst2](https://huggingface.co/datasets/OpenAssistant/oasst2) in a friendlier format
提供机构:
euclaise
原始信息汇总

数据集概述

许可证

  • Apache-2.0

数据集信息

  • 特征
    • history
      • role: 字符串类型
      • text: 字符串类型
    • prompt: 字符串类型
    • completions
      • labels
        • creativity
          • count: 64位整数类型
          • value: 64位浮点数类型
        • fails_task
          • count: 64位整数类型
          • value: 64位浮点数类型
        • hate_speech
          • count: 64位整数类型
          • value: 64位浮点数类型
        • helpfulness
          • count: 64位整数类型
          • value: 64位浮点数类型
        • humor
          • count: 64位整数类型
          • value: 64位浮点数类型
        • lang_mismatch
          • count: 64位整数类型
          • value: 64位浮点数类型
        • moral_judgement
          • count: 64位整数类型
          • value: 64位浮点数类型
        • not_appropriate
          • count: 64位整数类型
          • value: 64位浮点数类型
        • pii
          • count: 64位整数类型
          • value: 64位浮点数类型
        • political_content
          • count: 64位整数类型
          • value: 64位浮点数类型
        • quality
          • count: 64位整数类型
          • value: 64位浮点数类型
        • sexual_content
          • count: 64位整数类型
          • value: 64位浮点数类型
        • spam
          • count: 64位整数类型
          • value: 64位浮点数类型
        • toxicity
          • count: 64位整数类型
          • value: 64位浮点数类型
        • violence
          • count: 64位整数类型
          • value: 64位浮点数类型
      • rank: 64位整数类型
      • text: 字符串类型

数据分割

  • train
    • 字节数: 106295033
    • 样本数: 28383

数据集大小

  • 下载大小: 49057236
  • 数据集大小: 106295033

配置

  • config_name: default
    • 数据文件
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作