irds/clueweb09_es
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/clueweb09_es
下载链接
链接失效反馈官方服务:
资源简介:
`clueweb09/es`数据集由`ir-datasets`包提供,包含79,333,950个文档。该数据集主要用于文本检索任务。
提供机构:
irds
原始信息汇总
数据集卡片 clueweb09/es
数据集概述
clueweb09/es 数据集由 ir-datasets 包提供。
数据内容
该数据集包含以下内容:
docs(文档,即语料库);数量为 79,333,950。
使用方法
以下是加载和使用该数据集的示例代码:
python from datasets import load_dataset
docs = load_dataset(irds/clueweb09_es, docs) for record in docs: record # {doc_id: ..., url: ..., date: ..., http_headers: ..., body: ..., body_content_type: ...}
注意:调用 load_dataset 将下载数据集(或提供非公开数据集的访问指令),并在 🤗 Dataset 格式中创建数据的副本。



