Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M

Name: Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M
Creator: Qdrant
Published: 2024-02-09 13:50:20
License: 暂无描述

Hugging Face2024-02-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: _id dtype: string - name: title dtype: string - name: text dtype: string - name: text-embedding-3-large-1536-embedding sequence: float64 splits: - name: train num_bytes: 12679725776 num_examples: 1000000 download_size: 9551862565 dataset_size: 12679725776 configs: - config_name: default data_files: - split: train path: data/train-* license: mit task_categories: - feature-extraction language: - en size_categories: - 1M<n<10M --- 1M OpenAI Embeddings: text-embedding-3-large 1536 dimensions - Created: February 2024. - Text used for Embedding: title (string) + text (string) - Embedding Model: OpenAI text-embedding-3-large - This dataset was generated from the first 1M entries of https://huggingface.co/datasets/BeIR/dbpedia-entity, extracted by @KShivendu_ [here](https://huggingface.co/datasets/KShivendu/dbpedia-entities-openai-1M)

数据集信息： ## 特征字段 1. `_id`：字符串类型 2. `title`（标题）：字符串类型 3. `text`（正文）：字符串类型 4. `text-embedding-3-large-1536-embedding`：float64（双精度浮点数）序列 ## 数据拆分 - 训练集（train）：占用字节数12679725776，样本量1000000 下载大小：9551862565 数据集总存储大小：12679725776 ## 数据集配置 - 默认配置（default）：数据文件路径为`data/train-*`，对应训练集拆分许可证：MIT许可证（mit）任务类别：特征提取（feature-extraction）语言：英语（en）样本规模：100万 < 样本数 < 1000万（1M<n<10M） --- 100万条OpenAI嵌入数据集：text-embedding-3-large（1536维） - 创建时间：2024年2月 - 嵌入生成所用文本：`title`（标题）与`text`（正文）拼接 - 嵌入模型：OpenAI text-embedding-3-large - 本数据集源自https://huggingface.co/datasets/BeIR/dbpedia-entity的前100万条数据，由@KShivendu_ 于[此处](https://huggingface.co/datasets/KShivendu/dbpedia-entities-openai-1M)提取整理

提供机构：

Qdrant

原始信息汇总

数据集概述

数据集信息

特征列表:
- _id: 类型为字符串
- title: 类型为字符串
- text: 类型为字符串
- text-embedding-3-large-1536-embedding: 类型为浮点数序列
数据分割:
- train: 包含1,000,000个样本，总大小为12,679,725,776字节
下载大小: 9,551,862,565字节
数据集大小: 12,679,725,776字节

配置信息

配置名称: default
数据文件路径:
- train: data/train-*

许可证

MIT许可证

任务类别

特征提取

语言

英语

数据集大小类别

1M < n < 10M

创建时间

2024年2月

文本嵌入信息

文本来源: title 和 text
嵌入模型: OpenAI text-embedding-3-large
数据集来源: 从BeIR/dbpedia-entity数据集的前1,000,000个条目生成

搜集汇总

数据集介绍

构建方式

在知识图谱与信息检索领域，高质量嵌入表示对于实体理解至关重要。该数据集基于DBpedia实体数据集的前一百万条条目构建，通过OpenAI的text-embedding-3-large模型生成文本嵌入。具体而言，每条数据将实体的标题与描述文本拼接后，由该模型转换为1536维的密集向量表示，最终形成包含原始文本及其对应嵌入向量的结构化集合。

特点

本数据集的核心特征在于其大规模与高维嵌入表示。它涵盖了一百万个DBpedia实体，每个实体均配有经先进嵌入模型处理的1536维向量，确保了语义信息的丰富捕获。数据字段包括实体ID、标题、原文及嵌入向量，结构清晰完整，适用于需要深度语义理解的各类自然语言处理任务，为研究提供了坚实的基准资源。

使用方法

该数据集主要应用于特征提取与语义相似度计算等场景。使用者可直接加载数据集，利用预生成的嵌入向量进行实体检索、聚类或作为下游模型的输入特征。在实践过程中，建议结合具体任务需求，对嵌入向量进行归一化或相似度度量，以优化检索性能或增强模型对实体间语义关系的判别能力。

背景与挑战

背景概述

在知识图谱与自然语言处理融合发展的背景下，DBpedia作为大规模结构化知识库，为实体链接、语义检索等任务提供了丰富资源。Qdrant/dbpedia-entities-openai3-text-embedding-3-large-1536-1M数据集由Qdrant团队于2024年2月创建，基于BeIR/dbpedia-entity子集，利用OpenAI text-embedding-3-large模型为百万级实体文本生成1536维向量表示。该数据集旨在推动高维语义嵌入技术在实体解析、向量化检索等前沿方向的应用，为知识增强型人工智能系统提供标准化评估基准。

当前挑战

该数据集致力于应对知识密集型自然语言理解中实体语义表示的挑战，即如何将非结构化文本映射为稠密向量以捕获深层语义关联。构建过程中面临多重困难：需从异构DBpedia数据中清洗并整合实体标题与描述文本，确保语义完整性；采用前沿嵌入模型生成高维向量时，需平衡计算效率与表示精度；最终生成的百万级1536维向量集合，对存储架构与分布式检索系统提出了严峻的工程优化要求。

常用场景

经典使用场景

在知识图谱与信息检索领域，DBpedia实体数据集常作为基准资源，用于评估嵌入模型在语义相似度计算和实体链接任务中的性能。本数据集通过OpenAI text-embedding-3-large模型生成高维向量表示，为大规模实体嵌入提供了标准化范例，使得研究人员能够直接利用预计算嵌入进行高效的向量相似性搜索，从而加速语义匹配和知识发现过程。

衍生相关工作

基于DBpedia实体嵌入数据集，衍生出多项经典研究工作，包括改进的稠密检索模型、多模态知识融合框架以及跨领域迁移学习策略。这些工作进一步优化了嵌入的泛化能力，并在BeIR等基准评估中取得了显著性能提升，推动了语义表示学习在开放域任务中的创新与发展。

数据集最近研究