wiki-1m-qdrant-snapshot
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/Floressek/wiki-1m-qdrant-snapshot
下载链接
链接失效反馈官方服务:
资源简介:
Wikipedia 1M — GTE 多语言嵌入数据集,包含100万条波兰语维基百科段落的768维嵌入,使用Alibaba-NLP/gte-multilingual-base模型。数据集适用于检索增强生成、混合检索器、多跳检索、语义搜索基准测试等场景。数据集以CC-BY-SA-4.0许可证发布。
创建时间:
2025-11-15
原始信息汇总
Wikipedia 1M — GTE Multilingual Embeddings (Qdrant Snapshot) 数据集概述
基本信息
- 数据集名称: wiki-1m-qdrant-snapshot
- 显示名称: Wikipedia 1M — GTE Multilingual Embeddings (Qdrant Snapshot)
- 许可证: CC-BY-SA-4.0
- 语言: 波兰语(pl)
- 数据大小: 7GB
- 数据规模: 1M<n<10M
技术规格
- 嵌入模型: Alibaba-NLP/gte-multilingual-base
- 嵌入维度: 768维
- 距离度量: 余弦相似度
- 索引类型: HNSW (M=32, ef_construct=256,启用磁盘存储)
- 向量数量: 1,000,000个
- 分块策略: 语义分块,最大分块大小512,重叠128
数据内容
- 数据来源: 波兰语维基百科前100万条处理后的段落
- 分块模型: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
- 分块策略: 语义分割,基于章节感知
- 前缀设置: 查询前缀"query:",段落前缀"passage:"
- 最大序列长度: 512
Qdrant配置
- 集合名称: ragx_documents_1M_main_sample
- 搜索EF: 256
- 快照内容: 向量数据、有效载荷(原始分块文本和文档元数据)、Qdrant索引结构
主要用途
- 检索增强生成(RAG)
- 与交叉编码器的混合检索器
- 多跳检索
- 语义搜索基准测试
- Qdrant索引引导
- 测试基于LLM的验证链系统
使用限制
- 无法从嵌入重建原始维基百科页面
- 需要完整文本内容且无需归属的任务不适用
加载方式
支持通过Python客户端和Qdrant CLI两种方式加载快照。
引用要求
使用本数据集需引用维基百科、GTE Multilingual Base模型和Qdrant向量搜索引擎。
维护信息
- 维护者: Floressek
- 联系方式: 通过该仓库提交Issue
搜集汇总
数据集介绍

构建方式
在知识图谱与自然语言处理交叉领域,该数据集基于波兰语维基百科语料,采用语义分块策略构建。通过RAGx流水线对前100万段落进行智能切分,使用多语言句向量模型识别语义边界,以512字符为上限并保留128字符重叠区域确保上下文连贯性。嵌入阶段采用阿里巴巴研发的GTE多语言基础模型生成768维向量,最终通过Qdrant向量数据库的HNSW索引结构实现高效存储。
特点
该数据集显著特征体现在多模态架构设计,融合原始文本载荷与高维向量表示。百万量级的波兰语维基百科段落构成多语言语义空间,其768维嵌入向量采用余弦距离度量,配合经过优化的HNSW索引参数(M=32,ef_construct=256)确保检索效率。数据集严格遵循知识共享协议,既保留原始文本的元数据属性,又通过磁盘存储方案平衡内存占用与读取性能。
使用方法
使用者可通过标准化接口快速部署该向量数据库快照,利用Qdrant客户端加载预构建的索引结构。在检索增强生成场景中,该数据集支持多跳检索与语义搜索基准测试,配合交叉编码器可实现混合检索方案。开发者只需通过HuggingFace库下载快照文件,即可直接接入现有检索系统,或作为验证链系统的语义知识基底。
背景与挑战
背景概述
随着多语言信息检索需求的增长,波兰语维基百科嵌入数据集应运而生。该数据集由Floressek团队于2024年构建,采用Alibaba-NLP研发的gte-multilingual-base模型生成768维向量,通过语义分块技术处理百万级文本段落。作为专门针对波兰语语义搜索的预构建向量库,其创新性地集成Qdrant向量数据库的HNSW索引结构,显著提升了跨语言检索增强生成系统的初始化效率,为多语言自然语言处理研究提供了标准化基础设施。
当前挑战
在语义检索领域,该数据集需解决波兰语复杂语法结构导致的语义表示难题,同时应对多语言嵌入模型中文化特定概念的转换偏差。构建过程中面临维基百科文本动态更新的版本同步挑战,需设计兼顾语义连贯性与版权合规的分块策略。此外,百万级向量索引的存储优化与跨平台部署兼容性,对分布式系统的资源调度提出了严格要求。
常用场景
经典使用场景
在知识密集型自然语言处理领域,该数据集作为多语言语义检索的基准资源,其经典应用场景聚焦于检索增强生成系统。通过预构建的语义索引结构,研究者能够高效实现跨语言文档段落检索,为生成式语言模型提供精准的上下文支撑。特别在波兰语知识库构建过程中,该数据集通过语义分块与向量化技术,有效解决了长文本语义连贯性保持的难题。
实际应用
在工业级智能系统构建中,该数据集支撑着多语言客户服务引擎的语义理解模块,助力企业构建跨语言知识库检索体系。教育科技领域借助该资源开发智能答疑系统,通过语义匹配技术实现教育资源的精准推送。数字人文研究则利用其向量化表征,开展跨文化知识图谱的构建与比较研究,显著提升了文化遗产的数字化保护效率。
衍生相关工作
基于该数据集衍生的经典研究包括多层次检索验证框架的开发,其中Jina重排序器与GTE嵌入的协同架构成为后续研究的基准范式。在向量数据库优化领域,Qdrant的磁盘索引技术通过该数据集验证了亿级向量的高效检索可行性。此外,该资源还催生了多跳检索系统的创新设计,为复杂问答任务提供了可复现的实验平台。
以上内容由遇见数据集搜集并总结生成



