five

wiki-1m-qdrant-snapshot

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/Floressek/wiki-1m-qdrant-snapshot
下载链接
链接失效反馈
官方服务:
资源简介:
Wikipedia 1M — GTE 多语言嵌入数据集,包含100万条波兰语维基百科段落的768维嵌入,使用Alibaba-NLP/gte-multilingual-base模型。数据集适用于检索增强生成、混合检索器、多跳检索、语义搜索基准测试等场景。数据集以CC-BY-SA-4.0许可证发布。
创建时间:
2025-11-15
原始信息汇总

Wikipedia 1M — GTE Multilingual Embeddings (Qdrant Snapshot) 数据集概述

基本信息

  • 数据集名称: wiki-1m-qdrant-snapshot
  • 显示名称: Wikipedia 1M — GTE Multilingual Embeddings (Qdrant Snapshot)
  • 许可证: CC-BY-SA-4.0
  • 语言: 波兰语(pl)
  • 数据大小: 7GB
  • 数据规模: 1M<n<10M

技术规格

  • 嵌入模型: Alibaba-NLP/gte-multilingual-base
  • 嵌入维度: 768维
  • 距离度量: 余弦相似度
  • 索引类型: HNSW (M=32, ef_construct=256,启用磁盘存储)
  • 向量数量: 1,000,000个
  • 分块策略: 语义分块,最大分块大小512,重叠128

数据内容

  • 数据来源: 波兰语维基百科前100万条处理后的段落
  • 分块模型: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
  • 分块策略: 语义分割,基于章节感知
  • 前缀设置: 查询前缀"query:",段落前缀"passage:"
  • 最大序列长度: 512

Qdrant配置

  • 集合名称: ragx_documents_1M_main_sample
  • 搜索EF: 256
  • 快照内容: 向量数据、有效载荷(原始分块文本和文档元数据)、Qdrant索引结构

主要用途

  • 检索增强生成(RAG)
  • 与交叉编码器的混合检索器
  • 多跳检索
  • 语义搜索基准测试
  • Qdrant索引引导
  • 测试基于LLM的验证链系统

使用限制

  • 无法从嵌入重建原始维基百科页面
  • 需要完整文本内容且无需归属的任务不适用

加载方式

支持通过Python客户端和Qdrant CLI两种方式加载快照。

引用要求

使用本数据集需引用维基百科、GTE Multilingual Base模型和Qdrant向量搜索引擎。

维护信息

  • 维护者: Floressek
  • 联系方式: 通过该仓库提交Issue
搜集汇总
数据集介绍
main_image_url
构建方式
在知识图谱与自然语言处理交叉领域,该数据集基于波兰语维基百科语料,采用语义分块策略构建。通过RAGx流水线对前100万段落进行智能切分,使用多语言句向量模型识别语义边界,以512字符为上限并保留128字符重叠区域确保上下文连贯性。嵌入阶段采用阿里巴巴研发的GTE多语言基础模型生成768维向量,最终通过Qdrant向量数据库的HNSW索引结构实现高效存储。
特点
该数据集显著特征体现在多模态架构设计,融合原始文本载荷与高维向量表示。百万量级的波兰语维基百科段落构成多语言语义空间,其768维嵌入向量采用余弦距离度量,配合经过优化的HNSW索引参数(M=32,ef_construct=256)确保检索效率。数据集严格遵循知识共享协议,既保留原始文本的元数据属性,又通过磁盘存储方案平衡内存占用与读取性能。
使用方法
使用者可通过标准化接口快速部署该向量数据库快照,利用Qdrant客户端加载预构建的索引结构。在检索增强生成场景中,该数据集支持多跳检索与语义搜索基准测试,配合交叉编码器可实现混合检索方案。开发者只需通过HuggingFace库下载快照文件,即可直接接入现有检索系统,或作为验证链系统的语义知识基底。
背景与挑战
背景概述
随着多语言信息检索需求的增长,波兰语维基百科嵌入数据集应运而生。该数据集由Floressek团队于2024年构建,采用Alibaba-NLP研发的gte-multilingual-base模型生成768维向量,通过语义分块技术处理百万级文本段落。作为专门针对波兰语语义搜索的预构建向量库,其创新性地集成Qdrant向量数据库的HNSW索引结构,显著提升了跨语言检索增强生成系统的初始化效率,为多语言自然语言处理研究提供了标准化基础设施。
当前挑战
在语义检索领域,该数据集需解决波兰语复杂语法结构导致的语义表示难题,同时应对多语言嵌入模型中文化特定概念的转换偏差。构建过程中面临维基百科文本动态更新的版本同步挑战,需设计兼顾语义连贯性与版权合规的分块策略。此外,百万级向量索引的存储优化与跨平台部署兼容性,对分布式系统的资源调度提出了严格要求。
常用场景
经典使用场景
在知识密集型自然语言处理领域,该数据集作为多语言语义检索的基准资源,其经典应用场景聚焦于检索增强生成系统。通过预构建的语义索引结构,研究者能够高效实现跨语言文档段落检索,为生成式语言模型提供精准的上下文支撑。特别在波兰语知识库构建过程中,该数据集通过语义分块与向量化技术,有效解决了长文本语义连贯性保持的难题。
实际应用
在工业级智能系统构建中,该数据集支撑着多语言客户服务引擎的语义理解模块,助力企业构建跨语言知识库检索体系。教育科技领域借助该资源开发智能答疑系统,通过语义匹配技术实现教育资源的精准推送。数字人文研究则利用其向量化表征,开展跨文化知识图谱的构建与比较研究,显著提升了文化遗产的数字化保护效率。
衍生相关工作
基于该数据集衍生的经典研究包括多层次检索验证框架的开发,其中Jina重排序器与GTE嵌入的协同架构成为后续研究的基准范式。在向量数据库优化领域,Qdrant的磁盘索引技术通过该数据集验证了亿级向量的高效检索可行性。此外,该资源还催生了多跳检索系统的创新设计,为复杂问答任务提供了可复现的实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作