crumb/flan-t5-base-embed-refinedweb
收藏Hugging Face2023-06-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crumb/flan-t5-base-embed-refinedweb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含131,072个样本的最后一个隐藏状态,这些样本来自refinedweb,并被填充/截断为512个token,通过google/flan-t5-base模型处理。数据集的结构包括编码、原始文本和注意力掩码。数据集的总大小约为61GB,主要用于特征提取任务,标签包括t5和flan。
提供机构:
crumb
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 任务类别: 特征提取
- 标签: t5, flan
- 大小类别: 100K<n<1M
数据集内容
- 总大小: 约61GB
- 数据来源: 131,072个来自refinedweb的样本,每个样本的最后隐藏状态被填充/截断至512个tokens,并通过模型google/flan-t5-base处理。
数据结构
- encoding: 列表,形状为(512, 768),即(tokens, d_model)
- text: 字符串,原始文本
- attention_mask: 列表,二进制掩码,用于模型处理时忽略填充tokens



