Qdrant/dbpedia-entities-openai3-text-embedding-3-large-3072-1M
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Qdrant/dbpedia-entities-openai3-text-embedding-3-large-3072-1M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含100万条OpenAI嵌入数据,使用text-embedding-3-large模型生成3072维度的嵌入,以及ada-002模型生成1536维度的嵌入。数据集创建于2024年2月,嵌入的文本包括标题和正文。数据集来源于https://huggingface.co/datasets/BeIR/dbpedia-entity的前100万条记录,由@KShivendu_提取。
该数据集包含100万条OpenAI嵌入数据,使用text-embedding-3-large模型生成3072维度的嵌入,以及ada-002模型生成1536维度的嵌入。数据集创建于2024年2月,嵌入的文本包括标题和正文。数据集来源于https://huggingface.co/datasets/BeIR/dbpedia-entity的前100万条记录,由@KShivendu_提取。
提供机构:
Qdrant
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 大小类别: 1M<n<10M
- 任务类别: 特征提取
- 美观名称: OpenAI v3 Large 1M
数据集信息
- 特征:
- _id: 字符串
- title: 字符串
- text: 字符串
- text-embedding-ada-002-1536-embedding: 浮点数序列
- text-embedding-3-large-3072-embedding: 浮点数序列
- 分割:
- train: 31115725776 字节, 1000000 个样本
- 下载大小: 24796927580 字节
- 数据集大小: 31115725776 字节
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
详细描述
- 创建时间: 2024年2月
- 用于嵌入的文本: title (字符串) + text (字符串)
- 嵌入模型: text-embedding-3-large
- 数据来源: 从 https://huggingface.co/datasets/BeIR/dbpedia-entity 的前100万条记录生成
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



