five

irds/wikiclir_zh

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/wikiclir_zh
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: '`wikiclir/zh`' viewer: false source_datasets: [] task_categories: - text-retrieval --- # Dataset Card for `wikiclir/zh` The `wikiclir/zh` dataset, provided by the [ir-datasets](https://ir-datasets.com/) package. For more information about the dataset, see the [documentation](https://ir-datasets.com/wikiclir#wikiclir/zh). # Data This dataset provides: - `docs` (documents, i.e., the corpus); count=951,480 - `queries` (i.e., topics); count=463,273 - `qrels`: (relevance assessments); count=926,130 ## Usage ```python from datasets import load_dataset docs = load_dataset('irds/wikiclir_zh', 'docs') for record in docs: record # {'doc_id': ..., 'title': ..., 'text': ...} queries = load_dataset('irds/wikiclir_zh', 'queries') for record in queries: record # {'query_id': ..., 'text': ...} qrels = load_dataset('irds/wikiclir_zh', 'qrels') for record in qrels: record # {'query_id': ..., 'doc_id': ..., 'relevance': ..., 'iteration': ...} ``` Note that calling `load_dataset` will download the dataset (or provide access instructions when it's not public) and make a copy of the data in 🤗 Dataset format. ## Citation Information ``` @inproceedings{sasaki-etal-2018-cross, title = "Cross-Lingual Learning-to-Rank with Shared Representations", author = "Sasaki, Shota and Sun, Shuo and Schamoni, Shigehiko and Duh, Kevin and Inui, Kentaro", booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N18-2073", doi = "10.18653/v1/N18-2073", pages = "458--463" } ```

### 数据集元数据 显示名称:`wikiclir/zh` 数据集查看器:禁用 源数据集:无 任务类别: - 文本检索 --- # `wikiclir/zh` 数据集卡片 本`wikiclir/zh` 数据集由 [ir-datasets](https://ir-datasets.com/) 工具包提供。如需了解该数据集的更多详情,请参阅[官方文档](https://ir-datasets.com/wikiclir#wikiclir/zh)。 ## 数据概况 本数据集包含以下三类数据: - `docs`(文档,即检索语料库):共计951,480条 - `queries`(查询请求,即检索主题):共计463,273条 - `qrels`(相关性标注结果):共计926,130条 ## 使用方法 可通过如下Python代码加载该数据集的各组成部分: python from datasets import load_dataset # 加载文档语料 docs = load_dataset('irds/wikiclir_zh', 'docs') for record in docs: # 单条文档记录格式:{'doc_id': ..., 'title': ..., 'text': ...} record # 加载查询数据集 queries = load_dataset('irds/wikiclir_zh', 'queries') for record in queries: # 单条查询记录格式:{'query_id': ..., 'text': ...} record # 加载相关性标注数据集 qrels = load_dataset('irds/wikiclir_zh', 'qrels') for record in qrels: # 单条标注记录格式:{'query_id': ..., 'doc_id': ..., 'relevance': ..., 'iteration': ...} record 请注意,调用`load_dataset`函数将自动下载该数据集(若数据集未公开,则会提供访问指引),并将其转换为🤗 数据集(Hugging Face Datasets)格式进行本地存储。 ## 引用信息 @inproceedings{sasaki-etal-2018-cross, title = "Cross-Lingual Learning-to-Rank with Shared Representations", author = "Sasaki, Shota and Sun, Shuo and Schamoni, Shigehiko and Duh, Kevin and Inui, Kentaro", booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N18-2073", doi = "10.18653/v1/N18-2073", pages = "458--463" }
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

wikiclir/zh

数据集来源

ir-datasets包提供。

数据集内容

  • 文档 (docs): 共951,480个文档。
  • 查询 (queries): 共463,273个查询。
  • 相关性评估 (qrels): 共926,130个相关性评估。

数据集使用示例

python from datasets import load_dataset

docs = load_dataset(irds/wikiclir_zh, docs) for record in docs: record # {doc_id: ..., title: ..., text: ...}

queries = load_dataset(irds/wikiclir_zh, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/wikiclir_zh, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{sasaki-etal-2018-cross, title = "Cross-Lingual Learning-to-Rank with Shared Representations", author = "Sasaki, Shota and Sun, Shuo and Schamoni, Shigehiko and Duh, Kevin and Inui, Kentaro", booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N18-2073", doi = "10.18653/v1/N18-2073", pages = "458--463" }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息检索研究领域,wikiclir/zh数据集作为一项重要资源,其构建过程体现了严谨的学术规范。该数据集源自ir-datasets项目,其核心内容基于维基百科这一多语言知识库。构建者通过系统化的数据抽取与对齐流程,形成了包含近百万文档的语料库,并精心设计了超过四十六万条查询语句。为确保评估的可靠性,研究者还人工或半自动地标注了近百万条相关性判断,为跨语言排序学习模型的训练与评测奠定了坚实基础。
使用方法
研究人员可通过Hugging Face的datasets库便捷地访问该数据集。具体操作时,需分别加载文档、查询及相关性标注三个独立组件。加载后,文档数据以字典形式呈现,包含文档标识符、标题与正文;查询数据则提供查询标识符与查询文本;相关性标注则明确了查询与文档之间的关联强度。这种模块化的设计允许研究者灵活地提取所需子集,便于进行模型训练、检索测试以及结果评估等一系列标准实验流程。
背景与挑战
背景概述
在信息检索领域,跨语言检索技术旨在突破语言壁垒,实现不同语言文档与查询之间的精准匹配。wikiclir/zh数据集由Sasaki等人于2018年构建,作为跨语言学习排序研究的重要资源,其核心研究问题聚焦于如何利用共享表示提升中文与其他语言间的检索性能。该数据集依托维基百科语料,包含近百万文档与数十万查询,为跨语言信息检索模型的训练与评估提供了大规模、高质量的中文基准数据,显著推动了跨语言检索算法的发展与应用。
当前挑战
wikiclir/zh数据集所应对的领域挑战在于跨语言信息检索中语义对齐的复杂性,即如何克服语言差异,准确捕捉查询与文档间的深层语义关联。在构建过程中,挑战主要体现在大规模多语言数据的采集与清洗,需确保中文维基百科文档的完整性与代表性;同时,高质量相关性标注的获取亦面临成本高昂与标注一致性难题,这要求设计精密的评估框架以保障数据可靠性。
常用场景
经典使用场景
在跨语言信息检索领域,wikiclir/zh数据集以其大规模的中文文档和查询对,为研究者提供了评估检索模型性能的基准平台。该数据集通过包含近百万文档和数十万查询,模拟了真实世界中的多语言知识库检索场景,尤其适用于训练和测试学习排序模型,以优化文档与查询之间的语义匹配。其丰富的相关性标注数据,使得模型能够在跨语言环境下精准捕捉信息需求,推动检索精度的提升。
解决学术问题
该数据集有效解决了跨语言信息检索中的核心学术挑战,即如何克服语言障碍实现高效的知识迁移。通过提供中文文档与查询的对应关系,它支持研究者探索共享表示学习方法,从而减少对平行语料的依赖,促进低资源语言的信息获取。其意义在于推动了自然语言处理中跨语言模型的通用性研究,为多语言搜索引擎的开发奠定了理论基础,并加速了全球化信息访问技术的进步。
实际应用
在实际应用中,wikiclir/zh数据集被广泛用于构建智能搜索引擎和推荐系统,特别是在多语言内容平台如维基百科中,帮助用户跨越语言界限获取相关知识。它支持企业开发跨语言问答系统和文档检索工具,提升信息服务的覆盖范围与效率。此外,该数据集还可用于教育科技领域,辅助语言学习应用中的内容匹配,为用户提供精准的学习资源推荐。
数据集最近研究
最新研究方向
在跨语言信息检索领域,wikiclir/zh数据集作为大规模中文文档与查询对的重要资源,正推动着前沿研究的深入发展。当前研究聚焦于利用共享表示学习技术,通过多语言预训练模型如mBERT和XLM-R,实现跨语言查询与文档之间的语义对齐,有效缓解语言鸿沟带来的检索性能瓶颈。随着全球信息交互日益频繁,该数据集在促进跨语言知识共享、提升多语言搜索引擎效能方面展现出关键意义,相关成果已广泛应用于智能问答、多语言内容推荐等热点场景,为构建无缝的跨语言信息访问环境奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作