Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: _id
dtype: string
- name: title
dtype: string
- name: text
dtype: string
- name: text-embedding-3-large-1536-embedding
sequence: float64
splits:
- name: train
num_bytes: 12679725776
num_examples: 1000000
download_size: 9551862565
dataset_size: 12679725776
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: mit
task_categories:
- feature-extraction
language:
- en
size_categories:
- 1M<n<10M
---
1M OpenAI Embeddings: text-embedding-3-large 1536 dimensions
- Created: February 2024.
- Text used for Embedding: title (string) + text (string)
- Embedding Model: OpenAI text-embedding-3-large
- This dataset was generated from the first 1M entries of https://huggingface.co/datasets/BeIR/dbpedia-entity, extracted by @KShivendu_ [here](https://huggingface.co/datasets/KShivendu/dbpedia-entities-openai-1M)
数据集信息:
## 特征字段
1. `_id`:字符串类型
2. `title`(标题):字符串类型
3. `text`(正文):字符串类型
4. `text-embedding-3-large-1536-embedding`:float64(双精度浮点数)序列
## 数据拆分
- 训练集(train):占用字节数12679725776,样本量1000000
下载大小:9551862565
数据集总存储大小:12679725776
## 数据集配置
- 默认配置(default):数据文件路径为`data/train-*`,对应训练集拆分
许可证:MIT许可证(mit)
任务类别:特征提取(feature-extraction)
语言:英语(en)
样本规模:100万 < 样本数 < 1000万(1M<n<10M)
---
100万条OpenAI嵌入数据集:text-embedding-3-large(1536维)
- 创建时间:2024年2月
- 嵌入生成所用文本:`title`(标题)与`text`(正文)拼接
- 嵌入模型:OpenAI text-embedding-3-large
- 本数据集源自https://huggingface.co/datasets/BeIR/dbpedia-entity的前100万条数据,由@KShivendu_ 于[此处](https://huggingface.co/datasets/KShivendu/dbpedia-entities-openai-1M)提取整理
提供机构:
Qdrant
原始信息汇总
数据集概述
数据集信息
- 特征列表:
_id: 类型为字符串title: 类型为字符串text: 类型为字符串text-embedding-3-large-1536-embedding: 类型为浮点数序列
- 数据分割:
train: 包含1,000,000个样本,总大小为12,679,725,776字节
- 下载大小: 9,551,862,565字节
- 数据集大小: 12,679,725,776字节
配置信息
- 配置名称: default
- 数据文件路径:
train:data/train-*
许可证
- MIT许可证
任务类别
- 特征提取
语言
- 英语
数据集大小类别
- 1M < n < 10M
创建时间
- 2024年2月
文本嵌入信息
- 文本来源:
title和text - 嵌入模型: OpenAI text-embedding-3-large
- 数据集来源: 从
BeIR/dbpedia-entity数据集的前1,000,000个条目生成
搜集汇总
数据集介绍

构建方式
在知识图谱与信息检索领域,高质量嵌入表示对于实体理解至关重要。该数据集基于DBpedia实体数据集的前一百万条条目构建,通过OpenAI的text-embedding-3-large模型生成文本嵌入。具体而言,每条数据将实体的标题与描述文本拼接后,由该模型转换为1536维的密集向量表示,最终形成包含原始文本及其对应嵌入向量的结构化集合。
特点
本数据集的核心特征在于其大规模与高维嵌入表示。它涵盖了一百万个DBpedia实体,每个实体均配有经先进嵌入模型处理的1536维向量,确保了语义信息的丰富捕获。数据字段包括实体ID、标题、原文及嵌入向量,结构清晰完整,适用于需要深度语义理解的各类自然语言处理任务,为研究提供了坚实的基准资源。
使用方法
该数据集主要应用于特征提取与语义相似度计算等场景。使用者可直接加载数据集,利用预生成的嵌入向量进行实体检索、聚类或作为下游模型的输入特征。在实践过程中,建议结合具体任务需求,对嵌入向量进行归一化或相似度度量,以优化检索性能或增强模型对实体间语义关系的判别能力。
背景与挑战
背景概述
在知识图谱与自然语言处理融合发展的背景下,DBpedia作为大规模结构化知识库,为实体链接、语义检索等任务提供了丰富资源。Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M数据集由Qdrant团队于2024年2月创建,基于BeIR/dbpedia-entity子集,利用OpenAI text-embedding-3-large模型为百万级实体文本生成1536维向量表示。该数据集旨在推动高维语义嵌入技术在实体解析、向量化检索等前沿方向的应用,为知识增强型人工智能系统提供标准化评估基准。
当前挑战
该数据集致力于应对知识密集型自然语言理解中实体语义表示的挑战,即如何将非结构化文本映射为稠密向量以捕获深层语义关联。构建过程中面临多重困难:需从异构DBpedia数据中清洗并整合实体标题与描述文本,确保语义完整性;采用前沿嵌入模型生成高维向量时,需平衡计算效率与表示精度;最终生成的百万级1536维向量集合,对存储架构与分布式检索系统提出了严峻的工程优化要求。
常用场景
经典使用场景
在知识图谱与信息检索领域,DBpedia实体数据集常作为基准资源,用于评估嵌入模型在语义相似度计算和实体链接任务中的性能。本数据集通过OpenAI text-embedding-3-large模型生成高维向量表示,为大规模实体嵌入提供了标准化范例,使得研究人员能够直接利用预计算嵌入进行高效的向量相似性搜索,从而加速语义匹配和知识发现过程。
衍生相关工作
基于DBpedia实体嵌入数据集,衍生出多项经典研究工作,包括改进的稠密检索模型、多模态知识融合框架以及跨领域迁移学习策略。这些工作进一步优化了嵌入的泛化能力,并在BeIR等基准评估中取得了显著性能提升,推动了语义表示学习在开放域任务中的创新与发展。
数据集最近研究
最新研究方向
在知识图谱与信息检索领域,DBpedia实体数据集作为结构化语义知识的代表,其与OpenAI text-embedding-3-large模型生成的嵌入向量结合,正推动向量数据库技术的革新。当前研究聚焦于利用该数据集的高维嵌入特征,探索跨模态语义对齐与高效相似性检索机制,以应对大规模知识库的实时查询需求。热点事件如检索增强生成(RAG)系统的兴起,进一步凸显了此类预计算嵌入在提升语言模型事实准确性方面的关键作用。其影响在于为知识密集型应用提供了可扩展的语义索引基础,促进了人工智能在复杂推理任务中的实用化进展。
以上内容由遇见数据集搜集并总结生成



