Cohere/wikipedia-22-12-ja-embeddings
收藏Hugging Face2023-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/wikipedia-22-12-ja-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用cohere.ai的`multilingual-22-12`嵌入模型对日语维基百科进行编码。数据集包含维基百科文章的标题、文本及其对应的嵌入向量。适用于文本检索任务,特别是文档检索。README文件提供了加载数据集的方法、搜索示例以及性能评估的链接。
提供机构:
Cohere
原始信息汇总
数据集概述
基本信息
- 语言: 日语 (ja)
- 多语言性: 多语言
- 任务类别: 文本检索
- 许可证: Apache-2.0
- 任务ID: 文档检索
数据集内容
- 数据来源: 使用cohere.ai的
multilingual-22-12嵌入模型对日语维基百科进行编码。 - 嵌入计算: 计算
标题+" "+文本的嵌入,使用multilingual-22-12嵌入模型,适用于100种语言的语义搜索。
数据集加载
- 加载方式:
- 通过
from datasets import load_dataset加载数据集。 - 支持流式加载,无需预先下载。
- 通过
搜索示例
- 搜索实现: 使用cohere API进行查询嵌入,并与文档嵌入计算点积得分,实现文档检索。
其他语言版本
- 多语言支持: 提供多种语言的维基百科嵌入,包括阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、日语、韩语、简体英语、中文等。



