five

irds/codec

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/codec
下载链接
链接失效反馈
官方服务:
资源简介:
`codec`数据集由`ir-datasets`包提供,包含三个主要部分:`docs`(文档,即语料库,数量为729,824)、`queries`(查询,即主题,数量为42)和`qrels`(相关性评估,数量为6,186)。该数据集被其他数据集(如`codec_economics`、`codec_history`和`codec_politics`)所使用。用户可以通过Python代码加载并使用该数据集。

The `codec` dataset is provided by the `ir-datasets` package, which includes three core components: `docs` (the document corpus with 729,824 entries), `queries` (search topics with a total of 42 entries), and `qrels` (relevance assessments totaling 6,186 entries). This dataset is utilized by other datasets such as `codec_economics`, `codec_history`, and `codec_politics`. Users can load and use this dataset via Python code.
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

codec

数据提供方

ir-datasets

数据内容

  • docs (文档,即语料库); 数量=729,824
  • queries (查询,即主题); 数量=42
  • qrels (相关性评估); 数量=6,186

数据用途

该数据集被用于:

数据加载示例

python from datasets import load_dataset

docs = load_dataset(irds/codec, docs) for record in docs: record # {doc_id: ..., title: ..., text: ..., url: ...}

queries = load_dataset(irds/codec, queries) for record in queries: record # {query_id: ..., query: ..., domain: ..., guidelines: ...}

qrels = load_dataset(irds/codec, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{mackie2022codec, title={CODEC: Complex Document and Entity Collection}, author={Mackie, Iain and Owoicho, Paul and Gemmell, Carlos and Fischer, Sophie and MacAvaney, Sean and Dalton, Jeffery}, booktitle={Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval}, year={2022} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
数据集`irds/codec`包含729,824个文档、42个查询和6,186个相关性评估,主要用于文本检索任务。该数据集还被多个子数据集使用,如`codec_economics`、`codec_history`和`codec_politics`。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作