five

nirantk/dbpedia-entities-google-palm-gemini-embedding-001-100K

收藏
Hugging Face2023-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nirantk/dbpedia-entities-google-palm-gemini-embedding-001-100K
下载链接
链接失效反馈
官方服务:
资源简介:
DBPedia 100K: Gemini Google Embedding Model 001数据集包含100K个来自DBPedia的向量,每个向量有768个维度。数据集的特征包括_id、title、text和embedding。数据集创建于2023年12月,使用了Google的`models/embedding-001`模型生成嵌入向量。数据集的主要用途是用于嵌入性能的基准测试,并可以用于比较Google和OpenAI在同一文本上的嵌入效果。数据集的语言为英语,许可证为Apache License 2.0。

DBPedia 100K: Gemini Google Embedding Model 001数据集包含100K个来自DBPedia的向量,每个向量有768个维度。数据集的特征包括_id、title、text和embedding。数据集创建于2023年12月,使用了Google的`models/embedding-001`模型生成嵌入向量。数据集的主要用途是用于嵌入性能的基准测试,并可以用于比较Google和OpenAI在同一文本上的嵌入效果。数据集的语言为英语,许可证为Apache License 2.0。
提供机构:
nirantk
原始信息汇总

数据集卡片:DBPedia 100K: Gemini Google Embedding Model 001

数据集详情

数据集描述

  • 数据集名称: DBPedia 100K: Gemini Google Embedding Model 001
  • 数据集大小: 100K Google Embeddings -- 768 dimensions
  • 创建时间: 2023年12月
  • 文本用于嵌入: title(字符串)+ text(字符串)
  • 嵌入模型: Googles models/embedding-001
  • 语言: 英语
  • 许可证: Apache License 2.0

数据集结构

  • 特征:

    • _id:字符串
    • title:字符串
    • text:字符串
    • embedding:float64序列
  • 分割:

    • train:包含100,000个样本,653,564,666字节

数据集用途

该数据集适用于基准测试嵌入性能,测试向量在现有数据集上的表现。例如,可以使用此数据集比较Google和OpenAI对相同文本的嵌入效果。

数据集创建

与OpenAI嵌入不同,此数据集的创建使用了嵌入模型的“title”和“content”属性,以及task_type="retrieval_document"

源数据

该数据集是从早期的工作中提取的,原始数据集包含1M个条目。从这1M个条目中随机选择了100K个并创建了嵌入。

推荐

该数据集按原样发布,对于嵌入模型和数据集的使用中可能出现的偏见、限制或其他风险,作者并不了解。嵌入模型在加密上是安全的,不应在安全用例中使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作