oshizo/japanese-wikipedia-paragraphs-embeddings
收藏Hugging Face2023-12-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/oshizo/japanese-wikipedia-paragraphs-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过[intfloat/multilingual-e5-base]模型进行向量化的日语维基百科段落,并使用faiss创建了索引文件。
该数据集是通过[intfloat/multilingual-e5-base]模型进行向量化的日语维基百科段落,并使用faiss创建了索引文件。
提供机构:
oshizo
原始信息汇总
数据集概述
数据集信息
- 名称: oshizo/japanese-wikipedia-paragraphs
- 语言: 日语
- 许可证: cc-by-sa-4.0
数据处理
- 向量化模型: intfloat/multilingual-e5-base
- 索引文件: 通过faiss创建的index_me5-base_IVF2048_PQ192.faiss
使用方法
- 从仓库下载index_me5-base_IVF2048_PQ192.faiss文件。
- 使用以下Python代码加载数据集并进行查询:
python import faiss import datasets from sentence_transformers import SentenceTransformer
ds = datasets.load_dataset("oshizo/japanese-wikipedia-paragraphs", split="train")
index = faiss.read_index("./index_me5-base_IVF2048_PQ192.faiss")
model = SentenceTransformer("intfloat/multilingual-e5-base")
question = "日本で二番目に高い山は?" emb = model.encode(["query: " + question]) scores, indexes = index.search(emb, 10) scores = scores[0] indexes = indexes[0]
results = [] for idx, score in zip(indexes, scores): idx = int(idx) passage = ds[idx] passage["score"] = score results.append((passage))



