five

Qdrant/dbpedia-entities-openai3-text-embedding-3-large-3072-1M

收藏
Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Qdrant/dbpedia-entities-openai3-text-embedding-3-large-3072-1M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含100万条OpenAI嵌入数据,使用text-embedding-3-large模型生成3072维度的嵌入,以及ada-002模型生成1536维度的嵌入。数据集创建于2024年2月,嵌入的文本包括标题和正文。数据集来源于https://huggingface.co/datasets/BeIR/dbpedia-entity的前100万条记录,由@KShivendu_提取。

该数据集包含100万条OpenAI嵌入数据,使用text-embedding-3-large模型生成3072维度的嵌入,以及ada-002模型生成1536维度的嵌入。数据集创建于2024年2月,嵌入的文本包括标题和正文。数据集来源于https://huggingface.co/datasets/BeIR/dbpedia-entity的前100万条记录,由@KShivendu_提取。
提供机构:
Qdrant
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 大小类别: 1M<n<10M
  • 任务类别: 特征提取
  • 美观名称: OpenAI v3 Large 1M

数据集信息

  • 特征:
    • _id: 字符串
    • title: 字符串
    • text: 字符串
    • text-embedding-ada-002-1536-embedding: 浮点数序列
    • text-embedding-3-large-3072-embedding: 浮点数序列
  • 分割:
    • train: 31115725776 字节, 1000000 个样本
  • 下载大小: 24796927580 字节
  • 数据集大小: 31115725776 字节

配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

详细描述

  • 创建时间: 2024年2月
  • 用于嵌入的文本: title (字符串) + text (字符串)
  • 嵌入模型: text-embedding-3-large
  • 数据来源: 从 https://huggingface.co/datasets/BeIR/dbpedia-entity 的前100万条记录生成
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作