marsggbo/wmt16_switch64_token_real_and_predicted_patterns
收藏Hugging Face2024-06-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/marsggbo/wmt16_switch64_token_real_and_predicted_patterns
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,如prompt_text(提示文本)、prompt_ids(提示ID序列)、decode_ids(解码ID序列)等。数据集划分为train部分,包含30000个样本。decode_pattern的形状为(num_layers, num_decoding_steps),predictor_pattern的形状为(num_decoding_steps, num_layers, top3_indices),并且需要通过代码对predictor_pattern进行排列。
该数据集包含多个特征字段,如prompt_text(提示文本)、prompt_ids(提示ID序列)、decode_ids(解码ID序列)等。数据集划分为train部分,包含30000个样本。decode_pattern的形状为(num_layers, num_decoding_steps),predictor_pattern的形状为(num_decoding_steps, num_layers, top3_indices),并且需要通过代码对predictor_pattern进行排列。
提供机构:
marsggbo
原始信息汇总
数据集概述
数据集信息
特征
- prompt_text: 字符串类型
- prompt_ids: 整数序列类型
- decode_ids: 整数序列类型
- prompt_pattern: 整数序列的序列类型
- decode_pattern: 整数序列的序列类型
- predictor_pattern: 整数序列的序列的序列类型
数据分割
- train: 包含30,000个样本,总字节数为297,949,158
数据集大小
- 下载大小: 22,831,430字节
- 数据集大小: 297,949,158字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
数据形状
- decode_pattern.shape: (num_layers, num_decoding_steps)
- predictor_pattern.shape: (num_decoding_steps, num_layers, top3_indices)
数据处理
- predictor_pattern 需要通过以下方式进行置换: python predictor_pattern = predictor_pattern.permute(1,0,2) # (num_layers, num_decoding_steps, top3_indices)



