irds/codec

Name: irds/codec
Creator: irds
Published: 2023-01-05 02:59:09
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/codec

下载链接

链接失效反馈

官方服务：

资源简介：

`codec`数据集由`ir-datasets`包提供，包含三个主要部分：`docs`（文档，即语料库，数量为729,824）、`queries`（查询，即主题，数量为42）和`qrels`（相关性评估，数量为6,186）。该数据集被其他数据集（如`codec_economics`、`codec_history`和`codec_politics`）所使用。用户可以通过Python代码加载并使用该数据集。

The `codec` dataset is provided by the `ir-datasets` package, which includes three core components: `docs` (the document corpus with 729,824 entries), `queries` (search topics with a total of 42 entries), and `qrels` (relevance assessments totaling 6,186 entries). This dataset is utilized by other datasets such as `codec_economics`, `codec_history`, and `codec_politics`. Users can load and use this dataset via Python code.

提供机构：

irds

原始信息汇总

数据集概述

数据集名称

codec

数据提供方

ir-datasets

数据内容

docs (文档，即语料库); 数量=729,824
queries (查询，即主题); 数量=42
qrels (相关性评估); 数量=6,186

数据用途

该数据集被用于：

数据加载示例

python from datasets import load_dataset

docs = load_dataset(irds/codec, docs) for record in docs: record # {doc_id: ..., title: ..., text: ..., url: ...}

queries = load_dataset(irds/codec, queries) for record in queries: record # {query_id: ..., query: ..., domain: ..., guidelines: ...}

qrels = load_dataset(irds/codec, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{mackie2022codec, title={CODEC: Complex Document and Entity Collection}, author={Mackie, Iain and Owoicho, Paul and Gemmell, Carlos and Fischer, Sophie and MacAvaney, Sean and Dalton, Jeffery}, booktitle={Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval}, year={2022} }

搜集汇总

数据集介绍

背景与挑战

背景概述

数据集`irds/codec`包含729,824个文档、42个查询和6,186个相关性评估，主要用于文本检索任务。该数据集还被多个子数据集使用，如`codec_economics`、`codec_history`和`codec_politics`。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集