faiss-smollm

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/stai-tuebingen/faiss-smollm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于SmolLM和SmolLM2预训练语料库的FAISS索引，用于文本检索新颖性检测任务。数据集包括FAISS索引文件和分块的语料库数据，支持可选的ColBERTv2重排以提高检索精度。

创建时间：

2025-10-21

原始信息汇总

FAISS-Based Novelty Detection for SmolLM and SmolLM2 数据集概述

数据集基本信息

任务类别: 文本检索
语言: 英语
标签: 新颖性检测、语义相似性、LLM分析、预训练、FAISS、ColBERT

数据集用途

用于测量文本查询相对于SmolLM和SmolLM2预训练语料库的新颖性，基于论文《Un-Attributability: Computing Novelty From Retrieval & Semantic Similarity》的方法，支持可选的ColBERTv2重排序以提高精度。

技术流程

生成嵌入 - 使用句子转换器编码查询
FAISS搜索 - 从预训练语料库检索前K个最相似文档
合并结果 - 合并多个FAISS索引部分的结果
ColBERT重排序 - 使用ColBERTv2对检索文档进行重排序（可选）

数据分布

由于Hugging Face存储配额限制，完整的FAISS索引和分块数据集分布在两个存储库中：

https://huggingface.co/datasets/stai-tuebingen/faiss-smollm
https://huggingface.co/datasets/enguyen/smollm-chunked

系统要求

Python 3.11（必需）
CUDA兼容GPU（推荐）
预构建的FAISS索引和分块数据集

目录结构

FAISS索引结构

FAISS_PATH_1/ ├── dclm/ │ ├── faiss_part_0.index │ ├── faiss_part_1.index ├── stack_edu/ │ ├── faiss_part_0.index

数据结构（ColBERT用）

DATA_PATH/ ├── fineweb_edu_chunked/ │ ├── part_0/ │ ├── part_1/ ├── cosmopediav2_chunked/ │ ├── part_0/ │ ├── part_1/

结果目录结构

RESULTS_PATH_PARTS/ ├── SmolLM-360M_prompted_embeddings.npy ├── SmolLM2_seq_bat_dclm_part_0_S.npy ├── SmolLM2_seq_bat_dclm_part_0_I.npy

RESULTS_PATH_COMBINED/ ├── SmolLM-360M_prompted_S.npy ├── SmolLM-360M_prompted_I.npy

COLBERT_RESULTS_PATH/ ├── My_Experiment_SmolLM-360M_prompted_top100_chunk_texts_per_query.npy ├── My_Experiment_SmolLM-360M_chunk_size_150_simple_rerank_results_model.json

使用脚本

minimal_example_embeddings.py - 生成查询嵌入
minimal_example_FAISS.py - 搜索FAISS索引
minimal_example_combine_FAISS.py - 合并FAISS结果
minimal_example_ColBERTv2.py - ColBERT重排序（可选）

实验配置

支持单实验和多实验配置：

单实验：[("SmolLM-360M", "prompted")]
多实验：[("SmolLM-360M", "prompted"), ("SmolLM-360M", "unprompted"), ("SmolLM-1.7B", "prompted")]

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，faiss-smollm数据集的构建采用了分阶段索引策略，通过整合多个预训练语料库，包括DCLM、Stack Edu等多样化文本资源。构建过程首先运用句子转换器生成查询嵌入向量，随后利用FAISS高效索引技术对海量文档进行分区存储，每个语料库被划分为多个索引部分以支持分布式处理。这种模块化架构不仅优化了存储效率，还通过并行计算框架显著提升了大规模相似性检索的可行性。

特点

该数据集最显著的特征在于其融合了多模态检索与重排序机制，既包含基于稠密向量的初步相似性匹配，又集成ColBERTv2神经网络模型进行精细化重排序。数据集覆盖数学、编程、科普等专业领域文本，其索引结构支持动态扩展与跨库联合查询。通过精心设计的目录层级与标准化命名规范，实现了数TB级数据的结构化组织，为研究语言模型预训练数据的溯源与新颖性检测提供了完整的技术基础设施。

使用方法

使用本数据集需遵循四步工作流：首先通过专用脚本生成查询嵌入向量，接着调用分布式FAISS索引系统进行Top-K相似文档检索，随后整合多分区结果并应用可选的重排序模块。操作环境需配置Python 3.11与CUDA加速支持，通过参数化实验配置可灵活调整模型类型、提示策略与检索粒度。该流程特别设计了高性能计算适配方案，支持在集群环境中并行处理超大规模索引文件，确保研究实验的可复现性与扩展性。

背景与挑战

背景概述

随着大规模语言模型预训练数据的快速增长，如何量化文本新颖性成为自然语言处理领域的前沿课题。由STAI Tübingen研究机构于2024年创建的faiss-smollm数据集，基于论文《不可归因性：基于检索与语义相似性的新颖性计算》的理论框架，专门针对SmolLM与SmolLM-2预训练语料构建了多模态检索系统。该数据集通过整合FAISS高效索引与ColBERTv2重排序技术，致力于解决预训练数据溯源、文本相似性度量及模型输出归因等核心问题，为语言模型训练透明度研究提供了重要基准工具。

当前挑战

在文本新颖性检测领域，该数据集需应对语义相似性判别的粒度控制、跨领域文本匹配的准确性等核心难题。构建过程中面临分布式索引管理的复杂性，需协调多个TB级存储库的数据同步；同时处理多源异构语料（如DCLM、Stack-Edu等）的格式统一与质量验证，并需在保持检索效率的前提下集成ColBERTv2重排序模块，以平衡计算资源与检索精度之间的张力。

常用场景

经典使用场景

在自然语言处理领域，faiss-smollm数据集通过FAISS索引与ColBERT重排技术的结合，为文本新颖性检测提供了标准化评估框架。该数据集典型应用于测量查询文本与预训练语料库的语义相似度，通过四阶段流程——嵌入生成、相似文档检索、结果融合及可选的精细化重排，系统化解决了大规模语料中新颖内容识别的技术挑战。

衍生相关工作

基于该数据集构建的新颖性评估范式，已衍生出多个重要研究方向。包括融合多模态特征的扩展检索系统、适应低资源语言的轻量级检测框架，以及针对代码生成任务的专用评估体系。这些工作持续推动着可解释人工智能与负责任机器学习领域的方法论创新。

数据集最近研究