five

oshizo/japanese-wikipedia-paragraphs-embeddings

收藏
Hugging Face2023-12-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/oshizo/japanese-wikipedia-paragraphs-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过[intfloat/multilingual-e5-base]模型进行向量化的日语维基百科段落,并使用faiss创建了索引文件。

该数据集是通过[intfloat/multilingual-e5-base]模型进行向量化的日语维基百科段落,并使用faiss创建了索引文件。
提供机构:
oshizo
原始信息汇总

数据集概述

数据集信息

  • 名称: oshizo/japanese-wikipedia-paragraphs
  • 语言: 日语
  • 许可证: cc-by-sa-4.0

数据处理

  • 向量化模型: intfloat/multilingual-e5-base
  • 索引文件: 通过faiss创建的index_me5-base_IVF2048_PQ192.faiss

使用方法

  1. 从仓库下载index_me5-base_IVF2048_PQ192.faiss文件。
  2. 使用以下Python代码加载数据集并进行查询:

python import faiss import datasets from sentence_transformers import SentenceTransformer

ds = datasets.load_dataset("oshizo/japanese-wikipedia-paragraphs", split="train")

index = faiss.read_index("./index_me5-base_IVF2048_PQ192.faiss")

model = SentenceTransformer("intfloat/multilingual-e5-base")

question = "日本で二番目に高い山は?" emb = model.encode(["query: " + question]) scores, indexes = index.search(emb, 10) scores = scores[0] indexes = indexes[0]

results = [] for idx, score in zip(indexes, scores): idx = int(idx) passage = ds[idx] passage["score"] = score results.append((passage))

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作