irds/clueweb09_de
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/clueweb09_de
下载链接
链接失效反馈官方服务:
资源简介:
`clueweb09/de`数据集由`ir-datasets`包提供,主要用于文本检索任务。该数据集包含49,814,309个文档,每个文档包含文档ID、URL、日期、HTTP头、正文和正文内容类型等信息。
The clueweb09/de dataset is provided by the ir-datasets package and is primarily used for text retrieval tasks. This dataset contains 49,814,309 documents, each including document ID, URL, date, HTTP headers, body text, body content type and other relevant information.
提供机构:
irds
原始信息汇总
数据集概述
数据集名称
clueweb09/de
数据提供方
数据内容
- 数据类型: 文本检索
- 数据集大小: 49,814,309个文档
数据集结构
每个文档包含以下字段:
doc_idurldatehttp_headersbodybody_content_type
使用方法
python from datasets import load_dataset
docs = load_dataset(irds/clueweb09_de, docs) for record in docs: record # {doc_id: ..., url: ..., date: ..., http_headers: ..., body: ..., body_content_type: ...}



