crumb/flan-t5-large-embed-refinedweb
收藏Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crumb/flan-t5-large-embed-refinedweb
下载链接
链接失效反馈官方服务:
资源简介:
所有数据总计约81.3GB。这些数据是来自refinedweb的131,072个样本的最后一个隐藏状态,每个样本被填充或截断为512个token,并通过google/flan-t5-base模型处理。数据结构包括编码(形状为(512, 1024),即(tokens, d_model))、原始文本和注意力掩码(用于传递给模型以不关注填充token的二进制掩码)。
The total size of the dataset is approximately 81.3 GB. It comprises the final hidden states of 131,072 samples sourced from RefinedWeb, where each sample is padded or truncated to 512 tokens and processed using the google/flan-t5-base model. The dataset structure includes encodings (with a shape of (512, 1024), i.e., (tokens, d_model)), raw text, and attention masks—binary masks intended to be fed into the model to suppress attention to padded tokens.
提供机构:
crumb
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 任务类别: 特征提取
- 标签: T5, Flan
- 大小类别: 100K<n<1M
数据集内容
- 总大小: 约81.3GB
- 数据来源: 131,072个样本的最终隐藏状态,来自refinedweb,填充/截断至512个令牌。
- 处理模型: google/flan-t5-base
数据结构
- encoding: 列表,形状为(512, 1024),即(令牌数, 模型维度)
- text: 字符串,原始文本
- attention_mask: 列表,二进制掩码,用于模型输入,避免关注填充令牌



