five

crumb/flan-t5-large-embed-refinedweb

收藏
Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crumb/flan-t5-large-embed-refinedweb
下载链接
链接失效反馈
官方服务:
资源简介:
所有数据总计约81.3GB。这些数据是来自refinedweb的131,072个样本的最后一个隐藏状态,每个样本被填充或截断为512个token,并通过google/flan-t5-base模型处理。数据结构包括编码(形状为(512, 1024),即(tokens, d_model))、原始文本和注意力掩码(用于传递给模型以不关注填充token的二进制掩码)。

The total size of the dataset is approximately 81.3 GB. It comprises the final hidden states of 131,072 samples sourced from RefinedWeb, where each sample is padded or truncated to 512 tokens and processed using the google/flan-t5-base model. The dataset structure includes encodings (with a shape of (512, 1024), i.e., (tokens, d_model)), raw text, and attention masks—binary masks intended to be fed into the model to suppress attention to padded tokens.
提供机构:
crumb
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 任务类别: 特征提取
  • 标签: T5, Flan
  • 大小类别: 100K<n<1M

数据集内容

  • 总大小: 约81.3GB
  • 数据来源: 131,072个样本的最终隐藏状态,来自refinedweb,填充/截断至512个令牌。
  • 处理模型: google/flan-t5-base

数据结构

  • encoding: 列表,形状为(512, 1024),即(令牌数, 模型维度)
  • text: 字符串,原始文本
  • attention_mask: 列表,二进制掩码,用于模型输入,避免关注填充令牌
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作