irds/clueweb12_b13

Name: irds/clueweb12_b13
Creator: irds
Published: 2023-01-05 02:56:56
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/irds/clueweb12_b13

下载链接

链接失效反馈

官方服务：

资源简介：

`clueweb12/b13`数据集由`ir-datasets`包提供，主要用于文本检索任务。该数据集包含52,343,021个文档，这些文档被多个其他数据集使用。用户可以通过Hugging Face的`datasets`库加载该数据集，并访问每个文档的详细信息，如文档ID、URL、日期、HTTP头、正文内容及正文内容类型。

提供机构：

irds

原始信息汇总

数据集卡片 `clueweb12/b13`

数据集概述

clueweb12/b13 数据集由 ir-datasets 包提供。

数据内容

该数据集包含以下内容：

docs（文档，即语料库）；数量为 52,343,021。

使用场景

该数据集被以下数据集使用：

clueweb12_b13_clef-ehealth
clueweb12_b13_clef-ehealth_cs
clueweb12_b13_clef-ehealth_de
clueweb12_b13_clef-ehealth_fr
clueweb12_b13_clef-ehealth_hu
clueweb12_b13_clef-ehealth_pl
clueweb12_b13_clef-ehealth_sv
clueweb12_b13_ntcir-www-1
clueweb12_b13_ntcir-www-2
clueweb12_b13_ntcir-www-3
clueweb12_b13_trec-misinfo-2019

使用示例

python from datasets import load_dataset

docs = load_dataset(irds/clueweb12_b13, docs) for record in docs: record # {doc_id: ..., url: ..., date: ..., http_headers: ..., body: ..., body_content_type: ...}

注意：调用 load_dataset 将下载数据集（或提供非公开数据集的访问指令），并在 🤗 Dataset 格式中创建数据的副本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集