neuclir/neuclir1
收藏Hugging Face2025-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuclir/neuclir1
下载链接
链接失效反馈官方服务:
资源简介:
NeuCLIR1数据集是为TREC 2022 NeuCLIR Track创建的,旨在与HC4数据集相似,并且大部分文档来自HC4。数据集包含来自Common Crawl的中文、波斯语和俄语的网页文档。数据集的规模在1M到10M之间,包含三个语言版本的数据实例,分别对应波斯语、俄语和中文。每个文档包含唯一标识符、来源文件、提取的日期/时间、标题、正文和URL等字段。
提供机构:
neuclir
原始信息汇总
数据集概述
数据集描述
- 名称: NeuCLIR1
- 创建目的: 为TREC 2022 NeuCLIR Track设计
- 内容来源: 主要来源于HC4,包含大量从HC4迁移的文档
- 文档类型: 来自Common Crawl的网页文档
- 语言: 中文、波斯语、俄语
数据集结构
数据实例
| 分割 | 文档数量 |
|---|---|
fas (波斯语) |
2.2M |
rus (俄语) |
4.6M |
zho (中文) |
3.2M |
数据字段
id: 文档的唯一标识符cc_file: 来自Common Crawl的源文件time: 文章中提取的日期/时间title: 从文章中提取的标题text: 提取的文章主体url: 源URL
使用方法
使用🤗 Datasets加载数据集的示例代码:
python from datasets import load_dataset
dataset = load_dataset(neuclir/neuclir1) dataset[fas] # 波斯语文档 dataset[rus] # 俄语文档 dataset[zho] # 中文文档



