five

Nutanix/Anthropic_HH_Golden-processed

收藏
Hugging Face2024-07-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Nutanix/Anthropic_HH_Golden-processed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个数据分割,如训练集、测试集、验证集等。每个数据分割包含prompt和completion两个主要特征,每个特征由content和role两个字段组成,数据类型均为字符串。此外,数据集还包含一个布尔类型的label字段。数据集的下载大小为33,762,467字节,总大小为83,034,195字节。

This dataset contains multiple splits such as train, test, val, etc. Each split includes two main features: prompt and completion, each consisting of content and role fields, both of which are of string type. Additionally, the dataset includes a boolean label field. The download size of the dataset is 33,762,467 bytes, and the total size is 83,034,195 bytes.
提供机构:
Nutanix
原始信息汇总

数据集概述

数据集特征

  • prompt:
    • content: 字符串类型
    • role: 字符串类型
  • completion:
    • content: 字符串类型
    • role: 字符串类型
  • label: 布尔类型

数据集分割

  • train:
    • 字节数: 59810426
    • 样本数: 85074
  • test:
    • 字节数: 3350319
    • 样本数: 4624
  • val:
    • 字节数: 1661166
    • 样本数: 2312
  • sub:
    • 字节数: 2328997
    • 样本数: 3000
  • sub2:
    • 字节数: 2537764
    • 样本数: 3000
  • sub_llm:
    • 字节数: 3151297
    • 样本数: 5000
  • sub_llm2:
    • 字节数: 1955077
    • 样本数: 3000
  • clustered:
    • 字节数: 2119096
    • 样本数: 3000
  • clustered_pstable:
    • 字节数: 2065113
    • 样本数: 3000
  • clustered_pstable_pca:
    • 字节数: 2068242
    • 样本数: 3000
  • sub_llm_mean:
    • 字节数: 1986698
    • 样本数: 3000

数据集大小

  • 下载大小: 33762467 字节
  • 数据集总大小: 83034195 字节

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • test: data/test-*
      • val: data/val-*
      • sub: data/sub-*
      • sub2: data/sub2-*
      • sub_llm: data/sub_llm-*
      • sub_llm2: data/sub_llm2-*
      • clustered: data/clustered-*
      • clustered_pstable: data/clustered_pstable-*
      • clustered_pstable_pca: data/clustered_pstable_pca-*
      • sub_llm_mean: data/sub_llm_mean-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作