five

irds/wikiclir_pt

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/wikiclir_pt
下载链接
链接失效反馈
官方服务:
资源简介:
`wikiclir/pt`数据集由`ir-datasets`包提供,包含973,057个文档(docs)、611,732个查询(queries)和1,741,889个相关性评估(qrels)。该数据集用于文本检索任务,用户可以通过`datasets`库加载并使用这些数据。

The `wikiclir/pt` dataset is provided by the `ir-datasets` package, which contains 973,057 documents, 611,732 queries, and 1,741,889 relevance judgments (qrels). This dataset is designed for text retrieval tasks, and users can load and utilize this dataset via the `datasets` library.
提供机构:
irds
原始信息汇总

数据集卡片 wikiclir/pt

数据集概述

wikiclir/pt 数据集由 ir-datasets 包提供。

数据内容

该数据集包含以下部分:

  • docs(文档,即语料库):数量为 973,057
  • queries(即主题):数量为 611,732
  • qrels(相关性评估):数量为 1,741,889

使用方法

以下是加载和使用数据集的示例代码:

python from datasets import load_dataset

docs = load_dataset(irds/wikiclir_pt, docs) for record in docs: record # {doc_id: ..., title: ..., text: ...}

queries = load_dataset(irds/wikiclir_pt, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/wikiclir_pt, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{sasaki-etal-2018-cross, title = "Cross-Lingual Learning-to-Rank with Shared Representations", author = "Sasaki, Shota and Sun, Shuo and Schamoni, Shigehiko and Duh, Kevin and Inui, Kentaro", booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N18-2073", doi = "10.18653/v1/N18-2073", pages = "458--463" }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息检索领域,wikiclir/pt数据集依托维基百科多语言资源构建而成。该数据集通过系统化抽取葡萄牙语维基百科条目作为文档语料,同时利用跨语言对齐技术生成对应查询集合。构建过程中,研究者采用结构化解析方法提取文档标题与正文内容,并基于跨语言链接映射生成多语言查询对。相关性标注则通过算法自动匹配与人工校验相结合的方式完成,最终形成包含文档、查询及相关性判定的三重数据结构。
特点
该数据集显著特征体现在其规模化的跨语言检索架构上。文档库涵盖97万余条葡萄牙语维基百科条目,查询集合包含61万余条跨语言检索指令,并配备174万余条精细标注的相关性评估数据。其多维度数据结构支持端到端的检索模型训练,特别是查询与文档间的语言鸿沟为跨语言表示学习提供了天然实验场景。数据集的层次化组织方式便于研究者进行检索性能的细粒度分析,而标准化的评估框架则确保了实验结果的可靠性与可比性。
使用方法
通过HuggingFace数据集库可便捷调用该资源。使用load_dataset函数分别加载docs、queries和qrels三个子集,每个子集以字典形式返回结构化数据字段。文档集包含文档编号、标题与正文三元组,查询集提供查询编号与文本内容,相关性标注集则完整记录查询-文档对及其相关性等级。这种模块化设计支持灵活的实验流程构建,研究者既可进行全数据集训练,也能针对特定子集开展分析,为跨语言检索模型的开发与评估提供了标准化数据接口。
背景与挑战
背景概述
跨语言信息检索作为自然语言处理领域的关键分支,旨在突破语言壁垒,实现多语言环境下的高效知识获取。wikiclir/pt数据集由Sasaki等人于2018年构建,依托ir-datasets平台发布,专注于葡萄牙语与英语间的跨语言检索任务。该数据集以维基百科为知识源,包含97万余篇文档与61万余条查询,为核心研究问题——跨语言学习排序中的共享表示学习提供了大规模标注数据。其构建推动了跨语言检索模型的发展,为后续研究提供了重要的基准测试资源,显著提升了多语言信息系统的实用性与覆盖范围。
当前挑战
跨语言信息检索面临的核心挑战在于有效弥合语言间的语义鸿沟,尤其在低资源语言场景下,模型需克服词汇不匹配与文化语境差异带来的排序偏差。wikiclir/pt数据集构建过程中,需处理维基百科多语言版本的结构异构性,确保文档与查询的对齐质量;同时,人工标注大规模相关性评估时,需维持跨语言一致性标准,避免主观偏差影响排序可靠性。这些挑战共同制约着跨语言检索模型的性能上限与泛化能力。
常用场景
经典使用场景
在跨语言信息检索领域,wikiclir/pt数据集以其丰富的葡萄牙语文档和查询对,为研究者提供了一个标准化的评估平台。该数据集常用于训练和测试跨语言学习排序模型,通过共享表示方法,模型能够将不同语言的查询与文档映射到同一语义空间,从而有效提升检索的准确性和效率。这一场景不仅验证了模型在语言转换中的鲁棒性,还为多语言信息处理系统的开发奠定了数据基础。
解决学术问题
wikiclir/pt数据集主要解决了跨语言信息检索中的核心学术问题,即如何克服语言障碍,实现高效准确的文档检索。通过提供大规模标注的查询-文档相关性评估,该数据集支持了共享表示学习、迁移学习等前沿方法的研究,促进了跨语言语义对齐技术的发展。其意义在于推动了自然语言处理领域对多语言环境下信息获取的深入探索,为构建全球化知识服务系统提供了理论支撑。
衍生相关工作
基于wikiclir/pt数据集,学术界衍生了一系列经典研究工作。例如,Sasaki等人提出的跨语言学习排序框架,利用共享表示方法显著提升了检索性能;后续研究进一步扩展了该数据集在神经机器翻译、多语言预训练模型(如mBERT)中的应用。这些工作不仅深化了对跨语言语义理解的认识,还为后续如XLM-R等模型的开发提供了重要参考,推动了多语言自然语言处理技术的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作