five

nikhilchigali/wikianswers_embeddings_768

收藏
Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nikhilchigali/wikianswers_embeddings_768
下载链接
链接失效反馈
官方服务:
资源简介:
`nikhilchigali/wikianswers_embeddings_768`是`embedding-data/WikiAnswers`数据集的一个子集,仅包含原数据集的0.13%的行。数据集中的句子被展开为单独的项目,并带有相应的集群ID以标识来自同一组的句子。每个句子都有其关联的集群ID和768维的嵌入。数据集的语言为英语,每个例子包含一个句子和它的集群ID,同一集群中的句子是彼此的释义。嵌入是使用`all-distilroberta-v1`模型生成的。

`nikhilchigali/wikianswers_embeddings_768`是`embedding-data/WikiAnswers`数据集的一个子集,仅包含原数据集的0.13%的行。数据集中的句子被展开为单独的项目,并带有相应的集群ID以标识来自同一组的句子。每个句子都有其关联的集群ID和768维的嵌入。数据集的语言为英语,每个例子包含一个句子和它的集群ID,同一集群中的句子是彼此的释义。嵌入是使用`all-distilroberta-v1`模型生成的。
提供机构:
nikhilchigali
原始信息汇总

数据集概述

数据集nikhilchigali/wikianswers_embeddings_768embedding-data/WikiAnswers的一个子集,包含原始数据集的0.13%的行数。该数据集将句子集合解开为单独的项,每个项带有相应的集群ID,用于识别来自同一集合的句子。每个句子都有其关联的集群ID和维度为768的嵌入。

数据集结构

  • 特征:

    • sentence: 字符串类型
    • cluster: 整数类型
    • embedding_768: 浮点数序列类型,维度768
  • 分割:

    • train: 包含990526个示例,总大小为3106089249字节
  • 数据文件:

    • train: 路径为data/train-*

语言

数据集语言为英语。

使用示例

python from datasets import load_dataset dataset = load_dataset("nikhilchigali/wikianswers_embeddings_768")

数据集加载后,每个示例包含sentence, cluster, 和 embedding_768三个特征。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作