five

lyon-nlp/alloprof

收藏
Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lyon-nlp/alloprof
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个重新编辑的Alloprof数据集,经过预处理,文本已被清理,且不可用于检索的数据已被丢弃。该数据集主要用于文本分类和问答任务,语言为法语,规模在1K到10K之间。重新编辑的目的是为了更容易在MTEB基准测试管道中使用,并贡献于MTEB排行榜。数据集包含两个配置:documents和queries,分别用于加载文档和查询数据。
提供机构:
lyon-nlp
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本分类、问答
  • 语言: 法语
  • 数据集名称: alloprof
  • 数据规模: 1K<n<10K
  • 许可证: Apache-2.0

数据配置

  • 文档配置:

    • 分割: 测试集
    • 文件路径: documents.json
  • 查询配置:

    • 分割: 测试集
    • 文件路径: queries-test.json
    • 分割: 训练集
    • 文件路径: queries-train.json

数据集描述

  • 该数据集是原始Alloprof数据集的预处理版本,文本已清洗,不可用于检索的数据已被丢弃。

使用方法

  • 使用时需指定子集(文档或查询),例如加载查询集: python from datasets import load_dataset dataset = load_dataset("lyon-nlp/alloprof", "queries")

引用

  • 如果使用该数据集,请引用以下文献:

    @misc{ciancone2024extending, title={Extending the Massive Text Embedding Benchmark to French}, author={Mathieu Ciancone and Imene Kerboua and Marion Schaeffer and Wissam Siblini}, year={2024}, eprint={2405.20468}, archivePrefix={arXiv}, primaryClass={cs.CL} }

    @misc{lefebvrebrossard2023alloprof, title={Alloprof: a new French question-answer education dataset and its use in an information retrieval case study}, author={Antoine Lefebvre-Brossard and Stephane Gazaille and Michel C. Desmarais}, year={2023}, eprint={2302.07738}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作