nirantk/dbpedia-entities-google-palm-gemini-embedding-001-100K

Name: nirantk/dbpedia-entities-google-palm-gemini-embedding-001-100K
Creator: nirantk
Published: 2023-12-16 15:57:45
License: 暂无描述

Hugging Face2023-12-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nirantk/dbpedia-entities-google-palm-gemini-embedding-001-100K

下载链接

链接失效反馈

官方服务：

资源简介：

DBPedia 100K: Gemini Google Embedding Model 001数据集包含100K个来自DBPedia的向量，每个向量有768个维度。数据集的特征包括_id、title、text和embedding。数据集创建于2023年12月，使用了Google的`models/embedding-001`模型生成嵌入向量。数据集的主要用途是用于嵌入性能的基准测试，并可以用于比较Google和OpenAI在同一文本上的嵌入效果。数据集的语言为英语，许可证为Apache License 2.0。

提供机构：

nirantk

原始信息汇总

数据集卡片：DBPedia 100K: Gemini Google Embedding Model 001

数据集详情

数据集描述

数据集名称： DBPedia 100K: Gemini Google Embedding Model 001
数据集大小： 100K Google Embeddings -- 768 dimensions
创建时间： 2023年12月
文本用于嵌入： title（字符串）+ text（字符串）
嵌入模型： Googles models/embedding-001
语言： 英语
许可证： Apache License 2.0

数据集结构

特征：
- _id：字符串
- title：字符串
- text：字符串
- embedding：float64序列
分割：
- train：包含100,000个样本，653,564,666字节

数据集用途

该数据集适用于基准测试嵌入性能，测试向量在现有数据集上的表现。例如，可以使用此数据集比较Google和OpenAI对相同文本的嵌入效果。

数据集创建

与OpenAI嵌入不同，此数据集的创建使用了嵌入模型的“title”和“content”属性，以及task_type="retrieval_document"。

源数据

该数据集是从早期的工作中提取的，原始数据集包含1M个条目。从这1M个条目中随机选择了100K个并创建了嵌入。