five

Cohere/wikipedia-22-12-fr-embeddings

收藏
Hugging Face2023-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/wikipedia-22-12-fr-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用cohere.ai的`multilingual-22-12`嵌入模型对法语维基百科进行编码,适用于文本检索任务,特别是文档检索。嵌入模型支持100种语言,能够处理语义搜索。数据集提供了加载和搜索的示例代码,并链接到性能评估结果。
提供机构:
Cohere
原始信息汇总

数据集概述

基本信息

  • 语言: 法语(fr)
  • 多语言性: 多语言
  • 任务类别: 文本检索
  • 许可证: Apache-2.0
  • 任务ID: 文档检索

数据集内容

  • 数据集基于法语维基百科,使用cohere.ai的multilingual-22-12嵌入模型进行编码。
  • 数据集提供title+" "+text的嵌入,使用multilingual-22-12嵌入模型,该模型支持100种语言的语义搜索。

数据集加载

  • 数据集可通过以下Python代码加载: python from datasets import load_dataset docs = load_dataset("Cohere/wikipedia-22-12-fr-embeddings", split="train")

  • 也可通过流式加载,无需预先下载: python from datasets import load_dataset docs = load_dataset("Cohere/wikipedia-22-12-fr-embeddings", split="train", streaming=True)

搜索示例

  • 提供了一个完整的搜索示例,展示了如何使用cohere API和数据集进行查询和检索。

其他语言版本

  • 数据集还提供了其他语言版本的维基百科嵌入,包括阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、日语、韩语、简体英语和中文。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作