irds/wikir_en1k
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/wikir_en1k
下载链接
链接失效反馈官方服务:
资源简介:
wikir/en1k数据集是由ir-datasets包提供的一个大规模英文信息检索数据集,包含369,721个文档,用于文本检索任务。
提供机构:
irds
原始信息汇总
数据集概述
数据集名称
- 名称:
wikir/en1k
数据来源
- 来源: 由 ir-datasets 包提供
数据内容
- 内容: 包含
docs(文档,即语料库) - 文档数量: 369,721
使用方法
- 加载方式: 使用
datasets.load_dataset函数加载数据集 - 数据结构: 每个记录包含
doc_id和text
引用信息
- 参考文献:
- Frej, Jibril, Didier Schwab, and Jean-Pierre Chevallet. "WIKIR: A Python toolkit for building a large-scale Wikipedia-based English Information Retrieval Dataset." LREC (2020).
- Frej, Jibril, Didier Schwab, and Jean-Pierre Chevallet. "MLWIKIR: A Python Toolkit for Building Large-scale Wikipedia-based Information Retrieval Datasets in Chinese, English, French, Italian, Japanese, Spanish and More." CIRCLE (2020).



