wikipedia-paragraph-embeddings-en-gist-complete

Hugging Face2024-08-23 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Abrak/wikipedia-paragraph-embeddings-en-gist-complete

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含英文维基百科中每一篇文章的段落嵌入，不包括简单英语版本。嵌入是通过avsolatorio/GIST-small-Embedding-v0模型生成的，并量化为int8。数据集结构设计为最小化存储和计算需求，同时覆盖维基百科的广度。每个数据实例包含一个ID和对应的嵌入列表，嵌入是384个int8值。数据来源于wikimedia/wikipedia数据集的20231101.en目录，文章文本已被分割成段落。嵌入计算是在Nvidia A40上进行的，使用了sentence_transformers和未量化的GIST-small-Embedding-v0模型，精度设置为int8。数据集继承了维基百科的CC-BY-SA-4.0和GFDL许可。

创建时间：

2024-08-22

原始信息汇总

数据集概述

该数据集包含英文维基百科（非简单英文版本）中每个文章的段落嵌入。基于wikimedia/wikipedia的20231101.en版本。嵌入使用avsolatorio/GIST-small-Embedding-v0生成，并量化为int8。

数据集结构

数据集的结构旨在最小化必要的存储和计算，但仍覆盖维基百科的广度。

数据实例

一个示例如下：

{ id: 12.1, embedding: [[10, -14, -42, -3, 5, 4, 7, 17, -8, 18, ...] }

数据字段

所有记录的数据字段相同：

id(str): 与wikimedia/wikipedia中相同文章的ID，使用.作为分隔符，以及文章中段落的顺序编号。这些编号未左填充。
embedding: 包含384个int8值（从-128到127）的列表

详细信息

源数据

数据直接来源于wikimedia/wikipedia数据集的20231101.en目录。这是从2023年11月1日的快照中提取的英文文章文本内容。源数据已经去除了格式和其他非语言内容。更多信息请参见wikimedia/wikipedia模型卡。

作为此数据集处理的一部分，文章文本被分割成两个换行符（`

`）的段落。

嵌入计算

嵌入以1300个段落为一批次，使用sentence_transformers和未量化的GIST-small-Embedding-v0模型计算。精度设置为int8。完整的处理过程在Nvidia A40上大约需要20小时。完整的计算代码位于commit 5132104f1fa59d9b212844f6f7a93232193958f2 of setup.py，在项目The Archive的Github仓库中。

许可信息

这些嵌入是维基百科文章文本的衍生作品，维基百科文章文本采用CC-BY-SA-4.0和GFDL许可。这些嵌入继承了相同的许可。更多详情请参见维基百科版权页面。

搜集汇总

数据集介绍

构建方式

该数据集基于2023年11月1日的英文维基百科（wikimedia/wikipedia）数据，通过avsolatorio/GIST-small-Embedding-v0模型生成段落嵌入。数据预处理过程中，文章文本被按照双换行符（`\n\n`）分割为段落，随后使用sentence_transformers库以1300个段落为批次进行嵌入计算，并将结果量化为int8格式。整个计算过程在Nvidia A40显卡上耗时约20小时完成。

特点

该数据集包含了英文维基百科每篇文章的段落嵌入，嵌入维度为384，并以int8格式存储，有效减少了存储需求和计算复杂度。每个数据实例包含一个唯一标识符（id）和对应的嵌入向量，id由文章ID和段落序号组成，便于与原始维基百科数据关联。数据集的设计兼顾了存储效率和覆盖广度，适用于大规模文本分析任务。

使用方法

用户可通过Hugging Face的`datasets`库加载该数据集，使用`load_dataset`函数并指定路径为`Abrak/wikipedia-paragraph-embeddings-en-gist-complete`，数据目录为`20231101.en`。加载后，数据集可直接用于文本相似度计算、信息检索等任务。嵌入向量的量化格式使得其在保持高精度的同时，显著降低了计算资源需求。

背景与挑战

背景概述

wikipedia-paragraph-embeddings-en-gist-complete数据集由Abrak团队于2023年创建，基于wikimedia/wikipedia数据集中的20231101.en版本，旨在为英文维基百科的每一篇文章生成段落级别的嵌入表示。该数据集的核心研究问题在于如何高效地将大规模文本数据转化为低维向量表示，以便于后续的自然语言处理任务，如文本分类、信息检索和语义相似度计算。通过使用avsolatorio/GIST-small-Embedding-v0模型生成嵌入，并将结果量化为int8格式，该数据集在存储和计算效率上进行了优化，为大规模文本分析提供了重要支持。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，如何在大规模文本数据中高效生成段落级别的嵌入表示，同时保持语义信息的完整性；其次，如何在保证嵌入质量的前提下，通过量化技术减少存储和计算资源的消耗。此外，由于维基百科文本的多样性和复杂性，如何确保嵌入模型能够准确捕捉不同主题和风格的文本特征，也是一个重要的技术难题。这些挑战不仅涉及模型的计算效率，还关系到嵌入表示在实际应用中的泛化能力和鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，wikipedia-paragraph-embeddings-en-gist-complete数据集广泛应用于文本相似度计算和语义检索任务。通过将维基百科文章的段落转化为高维向量表示，研究者能够利用这些嵌入向量进行高效的文本匹配和聚类分析。该数据集特别适用于需要处理大规模文本数据的场景，如知识图谱构建和智能问答系统。

解决学术问题

该数据集解决了文本表示和语义理解中的关键问题。传统的文本处理方法往往依赖于词袋模型或TF-IDF等统计方法，难以捕捉深层次的语义信息。通过使用预训练的GIST-small-Embedding-v0模型生成的嵌入向量，研究者能够更准确地表示文本的语义信息，从而提升文本分类、信息检索和机器翻译等任务的性能。

衍生相关工作

基于wikipedia-paragraph-embeddings-en-gist-complete数据集，研究者们开发了多种经典的自然语言处理模型和算法。例如，一些研究利用该数据集进行跨语言文本匹配和多模态学习，进一步拓展了其应用范围。此外，该数据集还被用于训练和评估新的嵌入模型，推动了文本表示学习领域的发展。

以上内容由遇见数据集搜集并总结生成