neuclir/hc4
收藏Hugging Face2023-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neuclir/hc4
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language:
- fa
- ru
- zh
language_creators:
- found
license:
- odc-by
multilinguality:
- multilingual
pretty_name: HC4
size_categories:
- 1M<n<10M
source_datasets:
- extended|c4
tags: []
task_categories:
- text-retrieval
task_ids:
- document-retrieval
---
# Dataset Card for HC4
## Dataset Description
- **Repository:** https://github.com/hltcoe/HC4
- **Paper:** https://arxiv.org/abs/2201.09992
### Dataset Summary
HC4 is a suite of test collections for ad hoc Cross-Language Information Retrieval (CLIR), with Common Crawl News documents in Chinese, Persian, and Russian. The documents
are Web pages from Common Crawl in Chinese, Persian, and Russian.
### Languages
- Chinese
- Persian
- Russian
## Dataset Structure
### Data Instances
| Split | Documents |
|-----------------|----------:|
| `fas` (Persian) | 486K |
| `rus` (Russian) | 4.7M |
| `zho` (Chinese) | 646K |
### Data Fields
- `id`: unique identifier for this document
- `cc_file`: source file from connon crawl
- `time`: extracted date/time from article
- `title`: title extracted from article
- `text`: extracted article body
- `url`: source URL
## Dataset Usage
Using 🤗 Datasets:
```python
from datasets import load_dataset
dataset = load_dataset('neuclir/hc4')
dataset['fas'] # Persian documents
dataset['rus'] # Russian documents
dataset['zho'] # Chinese documents
```
## Citation Information
```
@article{Lawrie2022HC4,
author = {Dawn Lawrie and James Mayfield and Douglas W. Oard and Eugene Yang},
title = {HC4: A New Suite of Test Collections for Ad Hoc CLIR},
booktitle = {{Advances in Information Retrieval. 44th European Conference on IR Research (ECIR 2022)},
year = {2022},
month = apr,
publisher = {Springer},
series = {Lecture Notes in Computer Science},
site = {Stavanger, Norway},
url = {https://arxiv.org/abs/2201.09992}
}
```
提供机构:
neuclir
原始信息汇总
数据集概述
数据集描述
- 名称: HC4
- 类型: 跨语言信息检索测试集合
- 语言: 中文、波斯语、俄语
- 许可证: ODC-BY
- 大小: 1M<n<10M
- 来源: 扩展自c4数据集
- 任务类别: 文本检索
- 任务ID: 文档检索
数据集结构
数据实例
| 分割 | 文档数量 |
|---|---|
fas (波斯语) |
486K |
rus (俄语) |
4.7M |
zho (中文) |
646K |
数据字段
id: 文档的唯一标识符cc_file: 来自Common Crawl的源文件time: 从文章中提取的日期/时间title: 从文章中提取的标题text: 提取的文章主体url: 源URL
数据集使用
使用🤗 Datasets加载数据集的示例代码:
python from datasets import load_dataset
dataset = load_dataset(neuclir/hc4) dataset[fas] # 波斯语文档 dataset[rus] # 俄语文档 dataset[zho] # 中语文档
引用信息
@article{Lawrie2022HC4, author = {Dawn Lawrie and James Mayfield and Douglas W. Oard and Eugene Yang}, title = {HC4: A New Suite of Test Collections for Ad Hoc CLIR}, booktitle = {{Advances in Information Retrieval. 44th European Conference on IR Research (ECIR 2022)}, year = {2022}, month = apr, publisher = {Springer}, series = {Lecture Notes in Computer Science}, site = {Stavanger, Norway}, url = {https://arxiv.org/abs/2201.09992} }
搜集汇总
数据集介绍

构建方式
在跨语言信息检索领域,HC4数据集的构建体现了对多语言文档资源的系统性整合。该数据集源自Common Crawl新闻文档,覆盖中文、波斯语和俄语三种语言,通过自动化流程从网页中提取结构化信息,包括文章标题、正文、发布时间及原始URL。文档经过筛选与清洗,确保内容质量与语言代表性,最终形成规模达百万至千万级别的多语言文档集合,为跨语言检索研究提供了坚实的语料基础。
特点
HC4数据集以其多语言覆盖与大规模文档资源著称,专为跨语言信息检索任务设计。数据集包含中文、波斯语和俄语三种语言的新闻文档,其中俄语文档规模最大,达470万篇,中文与波斯语文档分别超过64万和48万篇。每篇文档均包含唯一标识符、标题、正文、时间戳及来源URL等结构化字段,支持对文档内容与元数据的深入分析。这种多语言并行结构使得研究者能够在统一框架下评估检索系统的跨语言性能。
使用方法
利用HC4数据集进行跨语言信息检索研究时,可通过Hugging Face的Datasets库便捷加载。使用load_dataset函数调用'neuclir/hc4'即可访问数据集,并依据语言代码(如'zho'、'fas'、'rus')分别获取中文、波斯语或俄语文档子集。研究者可基于文档的标题与正文字段构建检索索引,结合时间与URL元数据开展时序或来源分析,从而评估检索模型在多语言环境下的效果,推动跨语言信息处理技术的发展。
背景与挑战
背景概述
跨语言信息检索(CLIR)作为信息检索领域的重要分支,致力于解决用户使用一种语言查询检索另一种语言文档的核心难题。HC4数据集由约翰斯·霍普金斯大学人类语言技术中心等机构的研究团队于2022年创建,旨在为中文、波斯语和俄语这三种代表性语言构建一套标准化的测试集合。该数据集基于Common Crawl新闻文档构建,其核心研究问题聚焦于评估和推动多语言环境下的检索模型性能,为自然语言处理和信息检索的交叉研究提供了关键资源,显著促进了非英语语言信息检索技术的发展。
当前挑战
HC4数据集面临的挑战主要体现在两个方面:在领域问题层面,跨语言信息检索本身存在语义对齐的复杂性,不同语言间的词汇、句法和文化差异导致查询与文档的精准匹配困难,尤其对于波斯语和俄语等形态丰富的语言,词形变化和语义歧义加剧了检索精度提升的难度。在构建过程中,从Common Crawl海量网络数据中筛选高质量新闻文档并提取结构化文本是一项艰巨任务,需要克服网页噪音过滤、时间信息提取准确性以及多语言文本编码统一等工程挑战,确保数据的一致性与可靠性。
常用场景
经典使用场景
在跨语言信息检索领域,HC4数据集作为一套专门设计的测试集合,其经典使用场景聚焦于评估和优化多语言文档检索系统的性能。该数据集汇集了来自Common Crawl新闻文档的中文、波斯语和俄语语料,为研究者提供了丰富的跨语言查询-文档对,用以模拟真实世界中的信息检索需求。通过构建标准化的评测基准,HC4使得不同检索模型能够在统一框架下进行公平比较,从而推动跨语言检索技术的迭代与创新。
衍生相关工作
围绕HC4数据集,学术界衍生了一系列经典研究工作,主要集中在跨语言检索模型的创新与评测框架的完善。例如,基于HC4的基准测试催生了多语言预训练模型在检索任务中的适应性研究,如跨语言BERT变体的性能验证。同时,该数据集也促进了检索中查询扩展、神经排序算法以及低资源语言处理方法的探索,相关成果常见于ECIR、SIGIR等顶级信息检索会议,持续推动着跨语言检索技术的理论进展与实践应用。
数据集最近研究
最新研究方向
在跨语言信息检索领域,HC4数据集凭借其涵盖中文、波斯语和俄语的多语言新闻文档,正推动前沿研究聚焦于低资源语言的神经检索模型优化。随着全球信息流动加速,该数据集支持探索基于预训练语言模型的跨语言表示对齐,尤其在应对语言形态差异和语义鸿沟方面成为关键基准。相关热点事件如多语言大模型的兴起,进一步凸显了HC4在评估模型跨语言泛化能力中的意义,为促进语言技术公平性与全球知识可及性提供了实证基础。
以上内容由遇见数据集搜集并总结生成



