five

crumb/flan-t5-base-embed-refinedweb

收藏
Hugging Face2023-06-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crumb/flan-t5-base-embed-refinedweb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含131,072个样本的最后一个隐藏状态,这些样本来自refinedweb,并被填充/截断为512个token,通过google/flan-t5-base模型处理。数据集的结构包括编码、原始文本和注意力掩码。数据集的总大小约为61GB,主要用于特征提取任务,标签包括t5和flan。
提供机构:
crumb
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 任务类别: 特征提取
  • 标签: t5, flan
  • 大小类别: 100K<n<1M

数据集内容

  • 总大小: 约61GB
  • 数据来源: 131,072个来自refinedweb的样本,每个样本的最后隐藏状态被填充/截断至512个tokens,并通过模型google/flan-t5-base处理。

数据结构

  • encoding: 列表,形状为(512, 768),即(tokens, d_model)
  • text: 字符串,原始文本
  • attention_mask: 列表,二进制掩码,用于模型处理时忽略填充tokens
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作