five

jankovicsandras/nowiki-faiss-sbert-202309

收藏
Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/jankovicsandras/nowiki-faiss-sbert-202309
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于2023年挪威维基百科转储的FAISS向量数据库,使用NbAiLab/nb-sbert-base模型嵌入,主要用于增强挪威语(bokmål)聊天机器人的RAG功能。数据处理仅限于文章摘要,每个摘要被嵌入为768维向量。

这是一个基于2023年挪威维基百科转储的FAISS向量数据库,使用NbAiLab/nb-sbert-base模型嵌入,主要用于增强挪威语(bokmål)聊天机器人的RAG功能。数据处理仅限于文章摘要,每个摘要被嵌入为768维向量。
提供机构:
jankovicsandras
原始信息汇总

数据集概述

数据集描述

  • 名称: FAISS vectordb from a Norwegian Wikipedia dump from 2023-09
  • 用途: 用于增强使用挪威语(bokmål)的聊天机器人的RAG功能。
  • 内容: 仅处理了文章的摘要,每个摘要被嵌入为768维的向量。
  • 模型: 使用模型 NbAiLab/nb-sbert-base 进行向量嵌入。

数据集使用示例

python from langchain_community.vectorstores import FAISS from langchain_community.embeddings import HuggingFaceEmbeddings import time

embedder = HuggingFaceEmbeddings(model_name=NbAiLab/nb-sbert-base)

qs = [ Kven er Beyonce?, Hva skjedde i 2012?, Hvilke musikkfestivalar kan du anbefale?, ]

db = FAISS.load_local(nowiki_faiss_sbert_all, embedder, allow_dangerous_deserialization=True)

starttime=time.time()

for q in qs : print(---- ,q) r = db.similarity_search_with_score(q) print(r)

print(questions took ,time.time()-starttime, s. )

许可证信息

  • 类型: 其他
  • 名称: wikimedia
  • 链接: https://dumps.wikimedia.org/legal.html
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作