irds/clueweb09_ja
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/clueweb09_ja
下载链接
链接失效反馈官方服务:
资源简介:
`clueweb09/ja`数据集由`ir-datasets`包提供,包含67,337,717个文档。该数据集主要用于文本检索任务。
The `clueweb09/ja` dataset is provided via the `ir-datasets` package, contains 67,337,717 documents, and is primarily used for text retrieval tasks.
提供机构:
irds
原始信息汇总
数据集概述
数据集名称
clueweb09/ja
数据集来源
- 由 ir-datasets 提供
数据集内容
- 包含文档(即语料库),总计67,337,717个文档
数据集用途
- 用于文本检索任务
数据集结构
- 每个文档记录包含以下字段:
doc_id,url,date,http_headers,body,body_content_type
数据集加载示例
python from datasets import load_dataset
docs = load_dataset(irds/clueweb09_ja, docs) for record in docs: record # {doc_id: ..., url: ..., date: ..., http_headers: ..., body: ..., body_content_type: ...}



