vwxyzjn/summarize_from_feedback_oai_preprocessing_pythia-160m_48

Name: vwxyzjn/summarize_from_feedback_oai_preprocessing_pythia-160m_48
Creator: vwxyzjn
Published: 2023-12-26 18:41:33
License: 暂无描述

Hugging Face2023-12-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vwxyzjn/summarize_from_feedback_oai_preprocessing_pythia-160m_48

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: info struct: - name: id dtype: string - name: post dtype: string - name: title dtype: string - name: subreddit dtype: string - name: site dtype: string - name: article dtype: string - name: summaries list: - name: text dtype: string - name: policy dtype: string - name: note dtype: string - name: choice dtype: int32 - name: worker dtype: string - name: batch dtype: string - name: split dtype: string - name: extra struct: - name: confidence dtype: int32 - name: query_token sequence: int64 - name: query dtype: string - name: response0 dtype: string - name: response0_token sequence: int64 - name: response0_token_len dtype: int64 - name: response1 dtype: string - name: response1_token sequence: int64 - name: response1_token_len dtype: int64 - name: response0_policy dtype: string - name: response1_policy dtype: string - name: policies dtype: string - name: query_response0 dtype: string - name: query_response0_token sequence: int64 - name: query_response0_token_len dtype: int64 - name: query_response1 dtype: string - name: query_response1_token sequence: int64 - name: query_response1_token_len dtype: int64 splits: - name: train num_bytes: 1914904464 num_examples: 92858 - name: validation num_bytes: 1780140403 num_examples: 86086 download_size: 270579102 dataset_size: 3695044867 --- # Dataset Card for "summarize_from_feedback_oai_preprocessing_pythia-160m_48" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征项： - 名称：info，结构体类型，包含： - 名称：id，数据类型：字符串（string） - 名称：post，数据类型：字符串（string） - 名称：title，数据类型：字符串（string） - 名称：Reddit子版块（subreddit），数据类型：字符串（string） - 名称：site，数据类型：字符串（string） - 名称：article，数据类型：字符串（string） - 名称：summaries，列表类型，列表元素为结构体类型，包含： - 名称：text，数据类型：字符串（string） - 名称：策略（policy），数据类型：字符串（string） - 名称：备注（note），数据类型：字符串（string） - 名称：选择项（choice），数据类型：32位整数（int32） - 名称：标注人员（worker），数据类型：字符串（string） - 名称：批次（batch），数据类型：字符串（string） - 名称：划分集（split），数据类型：字符串（string） - 名称：extra，结构体类型，包含： - 名称：置信度（confidence），数据类型：32位整数（int32） - 名称：查询Token序列（query_token），数据类型：64位整数序列（sequence: int64） - 名称：查询语句（query），数据类型：字符串（string） - 名称：回复0（response0），数据类型：字符串（string） - 名称：回复0的Token序列（response0_token），数据类型：64位整数序列（sequence: int64） - 名称：回复0的Token长度（response0_token_len），数据类型：64位整数（int64） - 名称：回复1（response1），数据类型：字符串（string） - 名称：回复1的Token序列（response1_token），数据类型：64位整数序列（sequence: int64） - 名称：回复1的Token长度（response1_token_len），数据类型：64位整数（int64） - 名称：回复0的策略（response0_policy），数据类型：字符串（string） - 名称：回复1的策略（response1_policy），数据类型：字符串（string） - 名称：策略集合（policies），数据类型：字符串（string） - 名称：查询+回复0（query_response0），数据类型：字符串（string） - 名称：查询+回复0的Token序列（query_response0_token），数据类型：64位整数序列（sequence: int64） - 名称：查询+回复0的Token长度（query_response0_token_len），数据类型：64位整数（int64） - 名称：查询+回复1（query_response1），数据类型：字符串（string） - 名称：查询+回复1的Token序列（query_response1_token），数据类型：64位整数序列（sequence: int64） - 名称：查询+回复1的Token长度（query_response1_token_len），数据类型：64位整数（int64）数据集划分： - 名称：训练集（train），字节数：1914904464，样本量：92858 - 名称：验证集（validation），字节数：1780140403，样本量：86086 下载总大小：270579102字节，数据集总占用大小：3695044867字节 # 「summarize_from_feedback_oai_preprocessing_pythia-160m_48」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

vwxyzjn

原始信息汇总

数据集概述

数据集信息

特征结构

info: 结构体
- id: 字符串
- post: 字符串
- title: 字符串
- subreddit: 字符串
- site: 字符串
- article: 字符串
summaries: 列表
- text: 字符串
- policy: 字符串
- note: 字符串
choice: 整数 (int32)
worker: 字符串
batch: 字符串
split: 字符串
extra: 结构体
- confidence: 整数 (int32)
query_token: 序列 (int64)
query: 字符串
response0: 字符串
response0_token: 序列 (int64)
response0_token_len: 整数 (int64)
response1: 字符串
response1_token: 序列 (int64)
response1_token_len: 整数 (int64)
response0_policy: 字符串
response1_policy: 字符串
policies: 字符串
query_response0: 字符串
query_response0_token: 序列 (int64)
query_response0_token_len: 整数 (int64)
query_response1: 字符串
query_response1_token: 序列 (int64)
query_response1_token_len: 整数 (int64)

数据分割

train:
- 字节数: 1914904464
- 样本数: 92858
validation:
- 字节数: 1780140403
- 样本数: 86086

数据集大小

下载大小: 270579102 字节
数据集大小: 3695044867 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集