five

sproos/SlimPajama-6B-embedded

收藏
Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sproos/SlimPajama-6B-embedded
下载链接
链接失效反馈
官方服务:
资源简介:
SlimPajama-6B-embedded数据集是DKYoon/SlimPajama-6B的副本,并包含了由thenlper/gte-large生成的嵌入向量。数据集包含549万个文本示例,这些文本是SlimPajama-627B的代表性随机样本。每个文本都关联一个1024维的嵌入向量,用于表示语义内容。这些向量是通过平均池化生成的,未来还将提供最大池化的数据集。该数据集旨在帮助进行下游任务,如反向嵌入、解释嵌入空间以及创建嵌入模型之间的适配器。
提供机构:
sproos
原始信息汇总

数据集卡片 SlimPajama-6B-embedded

概述

  • 数据集来源:该数据集是 DKYoon/SlimPajama-6B 的一个副本,并包含了由 thenlper/gte-large 生成的嵌入向量。
  • 数据规模:包含 549 万个文本示例,这些示例是 SlimPajama-627B 的一个代表性随机样本。
  • 嵌入向量:每个文本都关联一个 1024 维的嵌入向量,用于表示文本的语义内容。这些向量是通过平均池化生成的(未来将提供最大池化数据集)。

用途

  • 下游任务:该数据集旨在帮助进行反向嵌入、解释嵌入空间以及创建嵌入模型之间的适配器等任务。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作