sproos/SlimPajama-6B-embedded
收藏Hugging Face2023-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sproos/SlimPajama-6B-embedded
下载链接
链接失效反馈官方服务:
资源简介:
SlimPajama-6B-embedded数据集是DKYoon/SlimPajama-6B的副本,并包含了由thenlper/gte-large生成的嵌入向量。数据集包含549万个文本示例,这些文本是SlimPajama-627B的代表性随机样本。每个文本都关联一个1024维的嵌入向量,用于表示语义内容。这些向量是通过平均池化生成的,未来还将提供最大池化的数据集。该数据集旨在帮助进行下游任务,如反向嵌入、解释嵌入空间以及创建嵌入模型之间的适配器。
提供机构:
sproos
原始信息汇总
数据集卡片 SlimPajama-6B-embedded
概述
- 数据集来源:该数据集是 DKYoon/SlimPajama-6B 的一个副本,并包含了由 thenlper/gte-large 生成的嵌入向量。
- 数据规模:包含 549 万个文本示例,这些示例是 SlimPajama-627B 的一个代表性随机样本。
- 嵌入向量:每个文本都关联一个 1024 维的嵌入向量,用于表示文本的语义内容。这些向量是通过平均池化生成的(未来将提供最大池化数据集)。
用途
- 下游任务:该数据集旨在帮助进行反向嵌入、解释嵌入空间以及创建嵌入模型之间的适配器等任务。



