five

Mitsuki-Sakamoto/filter_dataset_test

收藏
Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Mitsuki-Sakamoto/filter_dataset_test
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: test_1 features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: preference dtype: int64 - name: output_1 dtype: string - name: output_2 dtype: string - name: reward_model_prompt_format dtype: string - name: gen_prompt_format dtype: string - name: gen_kwargs struct: - name: do_sample dtype: bool - name: max_new_tokens dtype: int64 - name: pad_token_id dtype: int64 - name: top_k dtype: int64 - name: top_p dtype: float64 - name: reward_1 dtype: float64 - name: reward_2 dtype: float64 - name: prompt dtype: string - name: chosen dtype: string - name: rejected dtype: string - name: index dtype: int64 - name: filtered_epoch dtype: int64 - name: gen_reward dtype: float64 - name: gen_response dtype: string splits: - name: epoch_2 num_bytes: 64632 num_examples: 36 - name: epoch_1 num_bytes: 64630 num_examples: 37 download_size: 597370 dataset_size: 129262 configs: - config_name: test_1 data_files: - split: epoch_1 path: test_1/epoch_1-* - split: epoch_2 path: test_1/epoch_2-* ---

数据集信息: 配置名称:test_1 特征: - 名称:instruction,数据类型:字符串(string) - 名称:input,数据类型:字符串(string) - 名称:output,数据类型:字符串(string) - 名称:preference,数据类型:64位整数(int64) - 名称:output_1,数据类型:字符串(string) - 名称:output_2,数据类型:字符串(string) - 名称:reward_model_prompt_format,数据类型:字符串(string) - 名称:gen_prompt_format,数据类型:字符串(string) - 名称:gen_kwargs,数据类型:结构体(struct),其子特征包括: - 名称:do_sample,数据类型:布尔值(bool) - 名称:max_new_tokens,数据类型:64位整数(int64,最大生成令牌(Token)数) - 名称:pad_token_id,数据类型:64位整数(int64,填充令牌(Token)ID) - 名称:top_k,数据类型:64位整数(int64,Top-K采样参数) - 名称:top_p,数据类型:64位浮点数(float64,Top-P采样阈值) - 名称:reward_1,数据类型:64位浮点数(float64) - 名称:reward_2,数据类型:64位浮点数(float64) - 名称:prompt,数据类型:字符串(string) - 名称:chosen,数据类型:字符串(string,优选响应) - 名称:rejected,数据类型:字符串(string,拒选响应) - 名称:index,数据类型:64位整数(int64) - 名称:filtered_epoch,数据类型:64位整数(int64) - 名称:gen_reward,数据类型:64位浮点数(float64) - 名称:gen_response,数据类型:字符串(string) 数据划分: - 划分名称:epoch_2,占用字节数:64632,样本数量:36 - 划分名称:epoch_1,占用字节数:64630,样本数量:37 下载总大小:597370 字节 数据集总占用大小:129262 字节 数据集配置: - 配置名称:test_1,数据文件配置: - 划分:epoch_1,数据路径:test_1/epoch_1-* - 划分:epoch_2,数据路径:test_1/epoch_2-*
提供机构:
Mitsuki-Sakamoto
原始信息汇总

数据集概述

数据集配置

  • 配置名称: test_1

数据集特征

  • instruction: 数据类型为字符串
  • input: 数据类型为字符串
  • output: 数据类型为字符串
  • preference: 数据类型为整数
  • output_1: 数据类型为字符串
  • output_2: 数据类型为字符串
  • reward_model_prompt_format: 数据类型为字符串
  • gen_prompt_format: 数据类型为字符串
  • gen_kwargs: 结构化数据,包含以下子特征:
    • do_sample: 数据类型为布尔值
    • max_new_tokens: 数据类型为整数
    • pad_token_id: 数据类型为整数
    • top_k: 数据类型为整数
    • top_p: 数据类型为浮点数
  • reward_1: 数据类型为浮点数
  • reward_2: 数据类型为浮点数
  • prompt: 数据类型为字符串
  • chosen: 数据类型为字符串
  • rejected: 数据类型为字符串
  • index: 数据类型为整数
  • filtered_epoch: 数据类型为整数
  • gen_reward: 数据类型为浮点数
  • gen_response: 数据类型为字符串

数据集分割

  • epoch_1: 包含37个示例,占用64630字节
  • epoch_2: 包含36个示例,占用64632字节

数据集大小

  • 下载大小: 597370字节
  • 数据集大小: 129262字节

数据文件配置

  • 配置名称: test_1
  • 数据文件路径:
    • epoch_1: test_1/epoch_1-*
    • epoch_2: test_1/epoch_2-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作