five

wiki_dpr_dummy

收藏
Hugging Face2025-06-23 更新2025-06-24 收录
下载链接:
https://huggingface.co/datasets/hf-internal-testing/wiki_dpr_dummy
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于测试transformers库中rag模型的示例数据集,通过加载带有索引和嵌入的wiki_dpr数据集,去除嵌入索引后创建而成。
创建时间:
2025-06-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称: wiki_dpr_dummy
  • 用途: 用于测试transformers中的rag模型
  • 数据集大小: 37,322,589字节
  • 下载大小: 40,747,210字节
  • 训练集样本数: 10,000

数据结构

  • 特征:
    • id: 字符串类型
    • text: 字符串类型
    • title: 字符串类型
    • embeddings: 浮点32序列类型

数据集生成

  • 生成步骤:
    1. 加载wiki_dpr数据集,包含嵌入和索引。
    2. 删除embeddings索引。
    3. 推送至Hugging Face Hub。
    4. 手动上传index.faiss文件。

配置信息

  • 默认配置:
    • 数据文件路径: data/train-*
    • 分割: 训练集
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索与自然语言处理领域,wiki_dpr_dummy数据集作为测试基准应运而生。该数据集通过调用HuggingFace的datasets库,从原始wiki_dpr数据集中抽取包含嵌入向量的样本,并移除了冗余的索引结构。构建过程中特别启用了dummy模式生成轻量化测试数据,最终通过手动上传FAISS索引文件完成整套测试资源的部署。
特点
该测试数据集具有精巧的结构设计,每条记录包含文本标识符、正文内容、标题和预计算嵌入向量四个关键字段。其训练分割包含10000条样本,总大小控制在37MB左右,既保证了测试场景的多样性又确保了高效加载。独特的嵌入向量序列为检索增强生成模型提供了即用的语义索引支持,特别适合RAG模型的快速验证。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,配合预构建的FAISS索引实现端到端测试流程。典型应用场景包括评估检索模块的召回精度、验证生成模型的上下文利用能力,以及测试整个RAG管道的响应延迟。数据集轻量化的特性使其能无缝集成到持续集成测试环节,极大简化了模型迭代过程中的验证工作。
背景与挑战
背景概述
wiki_dpr_dummy数据集作为测试用途的衍生数据集,其原型WikiDPR由Facebook AI Research团队于2020年推出,旨在推动密集段落检索(Dense Passage Retrieval, DPR)技术的发展。该数据集构建于维基百科知识库之上,通过预训练语言模型生成段落级向量表示,为开放域问答系统提供高效的检索基础。其创新性在于将传统基于关键词的检索升级为语义匹配范式,显著提升了问答系统在复杂查询场景下的准确率,成为自然语言处理领域评估检索增强生成(RAG)模型的重要基准。
当前挑战
该测试数据集虽为简化版本,仍继承原始数据集的核心挑战。语义检索任务需解决段落表征的细粒度对齐问题,要求嵌入空间既能捕捉局部语义特征,又需保持全局一致性。构建过程中面临双重困难:原始维基百科文本的异构性导致段落质量参差不齐,而基于NQ(Natural Questions)语料生成的嵌入需平衡计算效率与表征能力。测试阶段还需验证FAISS索引与嵌入向量的兼容性,这对轻量化部署提出额外技术要求。
常用场景
经典使用场景
在信息检索与问答系统领域,wiki_dpr_dummy数据集作为测试基准被广泛采用。该数据集通过模拟真实场景下的文档检索任务,为研究者提供了标准化的评估环境。其内置的文本嵌入特征使得模型能够快速验证密集段落检索(DPR)架构的性能表现,特别适合检验检索增强生成(RAG)模型在零样本和小样本场景下的泛化能力。
实际应用
在实际工业应用中,该数据集的轻量级特性使其成为部署前验证的理想选择。工程师可利用其快速测试检索系统的响应延迟和内存占用,特别适合云计算环境中需要动态扩展的智能客服系统。数据集包含的多样化文本片段也能有效模拟真实用户查询场景,为商业搜索引擎的语义召回模块提供可靠的性能基线。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作