pure-onnx

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/tazarov/pure-onnx

下载链接

链接失效反馈

官方服务：

资源简介：

SPLADE Endpoint Golden Dataset (v1) 是一个包含从SPLADE推理服务生成的稀疏向量的数据集。该数据集基于模型 `prithivida/Splade_PP_en_v1` 生成，包含20行数据，生成时间为UTC时间2026年2月21日19:09:51。数据集主要用于回归测试和验证，包含短合成测试提示及其标签。数据集文件包括JSONL格式的稀疏向量数据和元数据文件。每条数据记录包含以下字段：`id`（字符串）、`text`（字符串）、`indices`（整数数组）、`values`（浮点数数组）和`labels`（字符串数组，可能为空）。数据集不包含任何私有端点地址信息。

创建时间：

2026-02-22

原始信息汇总

数据集概述

基本信息

数据集名称: SPLADE Endpoint Golden Dataset (v1)
语言: 英语 (en)
许可证: CC (Creative Commons)
配置名称: default

数据来源与生成

源模型: prithivida/Splade_PP_en_v1
生成时间 (UTC): 2026-02-21T19:09:51.715028+00:00
数据行数: 20
数据摘要 (JSONL SHA-256): 050715eeb0a288daa486444e6bad006a98705f1c0a6e8f3780e0c46b1614105c

内容说明

输入内容: 用于回归测试的简短合成测试提示。
标签: 数据集中包含标签，用于验证一致性。
安全性: 数据集中不包含任何私有端点地址。

文件列表

splade_endpoint_golden/v1/splade_pp_en_v1_endpoint_topk24_labels_v1.jsonl
splade_endpoint_golden/v1/metadata.json

数据模式 (JSONL)

每条记录包含以下字段：

id (字符串)
text (字符串)
indices (整数数组)
values (浮点数数组)
labels (字符串数组，可能为空)

搜集汇总

数据集介绍

构建方式

在信息检索与自然语言处理领域，稀疏表示学习日益受到关注。该数据集通过部署先进的SPLADE模型服务构建而成，具体采用了`prithivida/Splade_PP_en_v1`模型进行推理生成。数据生成过程基于一组简短的合成测试提示，旨在服务于回归测试中的性能一致性验证。每条数据记录均包含文本及其对应的稀疏向量表示，即索引数组与数值数组，并附带了用于验证的标签信息，整个构建流程确保了数据的可复现性与完整性。

特点

本数据集的核心特征在于其专注于提供高质量的稀疏向量表示，这些向量由经过专门优化的SPLADE模型生成。数据以JSONL格式组织，结构清晰，每条记录均包含唯一的标识符、原始文本、稀疏向量的索引与数值，以及可选的标签数组。其规模虽精炼，但旨在为模型部署与服务间的输出一致性提供黄金标准参考。值得注意的是，数据集完全避免了包含任何私有端点地址，保障了使用的安全性与合规性。

使用方法

该数据集主要应用于信息检索系统中稀疏表示模型的输出验证与回归测试场景。使用者可以加载JSONL文件，解析其中的文本、稀疏向量及标签，用以对比不同服务或模型版本在相同输入下的输出一致性。通过比对`indices`和`values`数组，可以量化评估稀疏编码的稳定性。此外，附带的`labels`字段为进行更深层次的语义一致性分析提供了可能，是确保生产环境模型服务可靠性的重要工具。

背景与挑战

背景概述

在信息检索与自然语言处理领域，稀疏表示学习模型如SPLADE（Sparse Lexical and Expansion Model）通过生成高维稀疏向量来提升文档检索的精确度与效率。pure-onnx数据集作为SPLADE推理服务的输出集合，由研究人员于2026年2月创建，旨在为模型部署与回归验证提供标准化基准。该数据集依托`prithivida/Splade_PP_en_v1`模型生成，聚焦于短文本合成提示的稀疏向量表示，其核心研究问题在于确保不同推理端点间的输出一致性，从而推动检索系统在工业场景中的可靠应用。

当前挑战

pure-onnx数据集所应对的领域挑战在于解决稀疏检索模型中推理结果的可复现性与跨平台一致性难题，尤其在分布式服务环境下，模型输出的微小偏差可能导致检索性能显著波动。在构建过程中，数据集成面临多重挑战：需确保合成提示的多样性以覆盖边缘用例，同时维护稀疏向量与标签的精确对齐；此外，数据生成需严格隔离私有端点信息，保障安全性与可公开性，而稀疏向量的高维度特性亦对存储与验证流程提出了效率要求。

常用场景

经典使用场景

在信息检索与自然语言处理领域，pure-onnx数据集作为SPLADE模型生成的稀疏向量基准，常被用于评估和验证稀疏检索系统的性能。研究者利用该数据集中的文本、索引和数值向量，对比不同稀疏编码方法在文档表示上的效果，确保模型输出的一致性与可靠性。这一场景为稀疏表示学习提供了标准化的测试环境，推动了高效检索技术的发展。

实际应用

在实际应用中，pure-onnx数据集可用于优化搜索引擎和推荐系统的核心检索模块。企业或开发团队能借助其稀疏向量数据，校准自身部署的SPLADE服务端点，确保在线检索服务与离线模型输出保持高度一致。这提升了大规模文本检索系统的效率与准确性，为商业搜索平台提供了可靠的性能验证工具。

衍生相关工作

围绕pure-onnx数据集，已衍生出多项关于稀疏表示学习与检索对齐的研究工作。例如，基于其向量结构，学者们探索了稀疏编码的压缩与优化技术，并开发了针对SPLADE模型的轻量化部署方案。这些工作进一步拓展了稀疏检索在边缘计算和实时系统中的应用场景，推动了高效自然语言处理工具链的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集