nikhilchigali/wikianswers_embeddings_768

Name: nikhilchigali/wikianswers_embeddings_768
Creator: nikhilchigali
Published: 2024-03-30 18:58:29
License: 暂无描述

Hugging Face2024-03-30 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/nikhilchigali/wikianswers_embeddings_768

下载链接

链接失效反馈

官方服务：

资源简介：

`nikhilchigali/wikianswers_embeddings_768`是`embedding-data/WikiAnswers`数据集的一个子集，仅包含原数据集的0.13%的行。数据集中的句子被展开为单独的项目，并带有相应的集群ID以标识来自同一组的句子。每个句子都有其关联的集群ID和768维的嵌入。数据集的语言为英语，每个例子包含一个句子和它的集群ID，同一集群中的句子是彼此的释义。嵌入是使用`all-distilroberta-v1`模型生成的。

提供机构：

nikhilchigali

原始信息汇总

数据集概述

数据集nikhilchigali/wikianswers_embeddings_768是embedding-data/WikiAnswers的一个子集，包含原始数据集的0.13%的行数。该数据集将句子集合解开为单独的项，每个项带有相应的集群ID，用于识别来自同一集合的句子。每个句子都有其关联的集群ID和维度为768的嵌入。

数据集结构

特征:
- sentence: 字符串类型
- cluster: 整数类型
- embedding_768: 浮点数序列类型，维度768
分割:
- train: 包含990526个示例，总大小为3106089249字节
数据文件:
- train: 路径为data/train-*

语言

数据集语言为英语。

使用示例

python from datasets import load_dataset dataset = load_dataset("nikhilchigali/wikianswers_embeddings_768")

数据集加载后，每个示例包含sentence, cluster, 和 embedding_768三个特征。

5,000+

优质数据集

54 个

任务类型

进入经典数据集