wiki-sample

Hugging Face2024-08-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/weaviate/wiki-sample

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含两个配置：'openai-text-embedding-3-large' 和 'snowflake-arctic-embed'。每个配置对应不同的向量嵌入数据。'openai-text-embedding-3-large' 包含3072维向量，由OpenAI生成；'snowflake-arctic-embed' 包含1024维向量，由Ollama生成。数据集大小在100K到1M之间。数据集可以流式加载，包含文本、标题、URL、wiki_id和向量信息。

创建时间：

2024-08-30

原始信息汇总

数据集概述

数据集名称

weaviate/wiki-sample

许可证

BSD-3-Clause

配置信息

config_name: openai-text-embedding-3-large
- 数据文件路径: openai/text-embedding-3-large/*.parquet
- 向量维度: 3072d
- 生成工具: OpenAI
config_name: snowflake-arctic-embed
- 数据文件路径: ollama/snowflake-arctic/*.parquet
- 向量维度: 1024
- 生成工具: Ollama

数据量

100K < n < 1M

加载示例

python from datasets import load_dataset dataset = load_dataset("weaviate/wiki-sample", "openai-text-embedding-3-large", split="train", streaming=True)

dataset = load_dataset("weaviate/wiki-sample", "snowflake-arctic-embed", split="train", streaming=True)

for item in dataset: print(item["text"]) print(item["title"]) print(item["url"]) print(item["wiki_id"]) print(item["vector"]) print()

搜集汇总

数据集介绍

构建方式

wiki-sample数据集通过从维基百科中提取文本内容构建而成，涵盖了广泛的领域知识。数据以Parquet格式存储，支持多种向量嵌入配置，包括AWS、Cohere、OpenAI和Snowflake等主流嵌入模型。数据集的构建过程注重文本的多样性和代表性，确保其能够广泛应用于自然语言处理任务。

特点

该数据集的特点在于其丰富的向量嵌入选项，用户可以根据需求选择不同的嵌入模型，如AWS的Titan Embed Text v2、Cohere的Embed Multilingual v3、OpenAI的Text Embedding 3系列以及Snowflake的Arctic Embed。每种嵌入模型生成的向量维度不同，能够满足不同场景下的需求。此外，数据集还提供了无向量嵌入的原始文本版本，便于用户进行自定义处理。

使用方法

使用wiki-sample数据集时，用户可以通过Hugging Face的`load_dataset`函数加载数据。加载时可以选择是否包含向量嵌入，并指定具体的嵌入模型配置。数据集支持流式加载，适合处理大规模数据。用户还可以通过Weaviate配置集合，将数据集与向量数据库结合使用，进一步优化文本检索和相似度计算等任务。

背景与挑战

背景概述

wiki-sample数据集是一个基于维基百科内容的样本数据集，旨在为自然语言处理（NLP）领域的研究提供丰富的文本数据资源。该数据集由Weaviate团队创建，涵盖了多种向量嵌入配置，如AWS Titan、Cohere、OpenAI和Snowflake Arctic等，支持不同维度的向量表示。其核心研究问题在于如何通过高效的向量嵌入技术，提升文本检索、分类和语义理解等任务的性能。该数据集的发布为NLP领域的研究者提供了一个标准化的基准，推动了文本表示学习的发展。

当前挑战

wiki-sample数据集在应用过程中面临多重挑战。首先，文本数据的多样性和复杂性使得向量嵌入的生成和优化变得尤为困难，尤其是在多语言环境下，如何确保不同语言之间的语义一致性是一个关键问题。其次，数据集的构建过程中，如何高效处理大规模文本数据并生成高质量的向量嵌入，需要克服计算资源和时间成本的限制。此外，不同嵌入模型之间的兼容性和性能差异也对数据集的广泛应用提出了挑战。这些挑战不仅影响了数据集的实用性，也对相关领域的研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，wiki-sample数据集广泛应用于文本嵌入模型的训练与评估。通过加载不同配置的向量嵌入，研究人员能够深入分析文本语义表示的质量与效果。该数据集支持多种嵌入模型，如OpenAI的text-embedding-3-small和AWS的titan-embed-text-v2，为文本分类、信息检索和语义相似度计算等任务提供了丰富的实验数据。

实际应用

在实际应用中，wiki-sample数据集被广泛用于构建智能搜索引擎和推荐系统。例如，企业可以利用该数据集中的向量嵌入优化搜索引擎的语义匹配能力，提升用户体验。同时，该数据集也为个性化推荐系统提供了高质量的文本特征，帮助系统更精准地理解用户需求并推荐相关内容。

衍生相关工作

基于wiki-sample数据集，许多经典研究工作得以展开。例如，研究人员利用其多语言嵌入特性开发了跨语言信息检索系统，显著提升了多语言环境下的搜索效率。此外，该数据集还催生了多项关于文本嵌入优化的研究，推动了向量嵌入技术在自然语言处理领域的广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集