lyon-nlp/alloprof
收藏Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lyon-nlp/alloprof
下载链接
链接失效反馈官方服务:
资源简介:
这是一个重新编辑的Alloprof数据集,经过预处理,文本已被清理,且不可用于检索的数据已被丢弃。该数据集主要用于文本分类和问答任务,语言为法语,规模在1K到10K之间。重新编辑的目的是为了更容易在MTEB基准测试管道中使用,并贡献于MTEB排行榜。数据集包含两个配置:documents和queries,分别用于加载文档和查询数据。
提供机构:
lyon-nlp
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本分类、问答
- 语言: 法语
- 数据集名称: alloprof
- 数据规模: 1K<n<10K
- 许可证: Apache-2.0
数据配置
-
文档配置:
- 分割: 测试集
- 文件路径: documents.json
-
查询配置:
- 分割: 测试集
- 文件路径: queries-test.json
- 分割: 训练集
- 文件路径: queries-train.json
数据集描述
- 该数据集是原始Alloprof数据集的预处理版本,文本已清洗,不可用于检索的数据已被丢弃。
使用方法
- 使用时需指定子集(文档或查询),例如加载查询集: python from datasets import load_dataset dataset = load_dataset("lyon-nlp/alloprof", "queries")
引用
-
如果使用该数据集,请引用以下文献:
@misc{ciancone2024extending, title={Extending the Massive Text Embedding Benchmark to French}, author={Mathieu Ciancone and Imene Kerboua and Marion Schaeffer and Wissam Siblini}, year={2024}, eprint={2405.20468}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@misc{lefebvrebrossard2023alloprof, title={Alloprof: a new French question-answer education dataset and its use in an information retrieval case study}, author={Antoine Lefebvre-Brossard and Stephane Gazaille and Michel C. Desmarais}, year={2023}, eprint={2302.07738}, archivePrefix={arXiv}, primaryClass={cs.CL} }



