oshizo/japanese-wikipedia-paragraphs-embeddings

Name: oshizo/japanese-wikipedia-paragraphs-embeddings
Creator: oshizo
Published: 2023-12-15 13:16:42
License: 暂无描述

Hugging Face2023-12-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/oshizo/japanese-wikipedia-paragraphs-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过[intfloat/multilingual-e5-base]模型进行向量化的日语维基百科段落，并使用faiss创建了索引文件。

提供机构：

oshizo

原始信息汇总

数据集概述

python import faiss import datasets from sentence_transformers import SentenceTransformer

ds = datasets.load_dataset("oshizo/japanese-wikipedia-paragraphs", split="train")

index = faiss.read_index("./index_me5-base_IVF2048_PQ192.faiss")

model = SentenceTransformer("intfloat/multilingual-e5-base")

question = "日本で二番目に高い山は？" emb = model.encode(["query: " + question]) scores, indexes = index.search(emb, 10) scores = scores[0] indexes = indexes[0]

results = [] for idx, score in zip(indexes, scores): idx = int(idx) passage = ds[idx] passage["score"] = score results.append((passage))

5,000+

优质数据集

54 个

任务类型

进入经典数据集