jankovicsandras/nowiki-faiss-sbert-202309
收藏Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jankovicsandras/nowiki-faiss-sbert-202309
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于2023年挪威维基百科转储的FAISS向量数据库,使用NbAiLab/nb-sbert-base模型嵌入,主要用于增强挪威语(bokmål)聊天机器人的RAG功能。数据处理仅限于文章摘要,每个摘要被嵌入为768维向量。
这是一个基于2023年挪威维基百科转储的FAISS向量数据库,使用NbAiLab/nb-sbert-base模型嵌入,主要用于增强挪威语(bokmål)聊天机器人的RAG功能。数据处理仅限于文章摘要,每个摘要被嵌入为768维向量。
提供机构:
jankovicsandras
原始信息汇总
数据集概述
数据集描述
- 名称: FAISS vectordb from a Norwegian Wikipedia dump from 2023-09
- 用途: 用于增强使用挪威语(bokmål)的聊天机器人的RAG功能。
- 内容: 仅处理了文章的摘要,每个摘要被嵌入为768维的向量。
- 模型: 使用模型
NbAiLab/nb-sbert-base进行向量嵌入。
数据集使用示例
python from langchain_community.vectorstores import FAISS from langchain_community.embeddings import HuggingFaceEmbeddings import time
embedder = HuggingFaceEmbeddings(model_name=NbAiLab/nb-sbert-base)
qs = [ Kven er Beyonce?, Hva skjedde i 2012?, Hvilke musikkfestivalar kan du anbefale?, ]
db = FAISS.load_local(nowiki_faiss_sbert_all, embedder, allow_dangerous_deserialization=True)
starttime=time.time()
for q in qs : print(---- ,q) r = db.similarity_search_with_score(q) print(r)
print(questions took ,time.time()-starttime, s. )
许可证信息
- 类型: 其他
- 名称: wikimedia
- 链接: https://dumps.wikimedia.org/legal.html



