mikeee/chroma-paraphrase-multilingual-mpnet-base-v2
收藏数据集概述
数据集名称
hlm-paraphrase-multilingual-mpnet-base-v2
数据集内容
该数据集基于《红楼梦》文本,使用paraphrase-multilingual-mpnet-base-v2模型创建的Chromadb向量存储。
数据集创建过程
- 使用SentenceTransformerEmbeddings加载模型。
- 从指定URL下载《红楼梦》文本。
- 使用RecursiveCharacterTextSplitter将文本分割成多个块。
- 创建Chromadb向量存储,并持久化存储在本地目录。
数据集使用方法
- 下载数据集到本地目录。
- 加载向量存储,并进行文本搜索。
示例代码
python
下载数据集
from huggingface_hub import snapshot_download snapshot_download( repo_id="mikeee/chroma-paraphrase-multilingual-mpnet-base-v2", repo_type="dataset", allow_patterns="hlm/*", local_dir="db", resume_download=True, )
加载向量存储并搜索
from langchain.embeddings import SentenceTransformerEmbeddings from langchain.vectorstores import Chroma from chromadb.config import Settings
model_name = paraphrase-multilingual-mpnet-base-v2 embedding = SentenceTransformerEmbeddings(model_name=model_name)
client_settings = Settings( chroma_db_impl="duckdb+parquet", anonymized_telemetry=False, persist_directory=db/hlm )
db = Chroma( embedding_function=embedding, client_settings=client_settings, )
res = db.search("红楼梦主线", search_type="similarity", k=2) print(res)




