five

irds/wikiclir_ro

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/wikiclir_ro
下载链接
链接失效反馈
官方服务:
资源简介:
`wikiclir/ro`数据集由`ir-datasets`包提供,主要用于文本检索任务。数据集包含三个主要部分:文档(docs)、查询(queries)和相关性评估(qrels)。文档部分包含376,655条记录,查询部分包含199,264条记录,相关性评估部分包含451,180条记录。

The `wikiclir/ro` dataset, provided by the `ir-datasets` package, is primarily utilized for text retrieval tasks. It consists of three core components: documents (docs), queries, and relevance judgments (qrels). The document component contains 376,655 records, the query component includes 199,264 records, and the relevance judgment component has 451,180 records.
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

wikiclir/ro

数据集来源

ir-datasets包提供。

数据集内容

  • 文档 (docs): 数量为376,655。
  • 查询 (queries): 数量为199,264。
  • 相关性评估 (qrels): 数量为451,180。

数据集使用示例

python from datasets import load_dataset

docs = load_dataset(irds/wikiclir_ro, docs) for record in docs: record # {doc_id: ..., title: ..., text: ...}

queries = load_dataset(irds/wikiclir_ro, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/wikiclir_ro, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{sasaki-etal-2018-cross, title = "Cross-Lingual Learning-to-Rank with Shared Representations", author = "Sasaki, Shota and Sun, Shuo and Schamoni, Shigehiko and Duh, Kevin and Inui, Kentaro", booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N18-2073", doi = "10.18653/v1/N18-2073", pages = "458--463" }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息检索领域,wikiclir/ro数据集的构建体现了多语言知识对齐的严谨过程。该数据集基于维基百科的多语言条目,通过自动化对齐技术将罗马尼亚语文档与英语查询进行关联,形成了包含376,655篇文档和199,264条查询的语料库。构建过程中,研究者采用共享表示学习方法,确保跨语言语义空间的一致性,并通过人工或半自动方式生成451,180条相关性评估,为学习排序模型提供了高质量的监督信号。
特点
该数据集的核心特征在于其跨语言检索的架构设计。文档全部采用罗马尼亚语,而查询则以英语呈现,这种非对称语言设置模拟了真实世界跨语言信息检索场景。数据集规模庞大,覆盖广泛主题,且每个查询均配备多级相关性标注,为模型训练与评估提供了丰富维度。其结构化设计支持端到端的检索实验,同时与ir-datasets框架深度集成,确保了数据访问的标准化与可复现性。
使用方法
使用wikiclir/ro数据集时,研究者可通过Hugging Face的datasets库便捷加载不同组件。分别调用load_dataset函数并指定'docs'、'queries'或'qrels'参数,即可获得文档、查询及相关性标注的迭代器。文档包含标题与正文字段,查询提供唯一标识与文本,而相关性标注则关联查询与文档并附有相关度分数。这种模块化设计便于分别处理语料库、检索任务及评估流程,支持跨语言学习排序模型的训练、验证与性能测试。
背景与挑战
背景概述
跨语言信息检索作为自然语言处理领域的重要分支,致力于解决不同语言间信息获取的障碍。wikiclir/ro数据集由Sasaki等人于2018年构建,依托罗马尼亚语维基百科文档与跨语言查询,旨在探索共享表示下的跨语言学习排序问题。该数据集包含约37.7万篇文档与19.9万条查询,通过45.1万条相关性标注,为跨语言检索模型提供了标准化评估基准,显著推动了多语言语义对齐与检索性能的研究进展。
当前挑战
该数据集核心挑战在于跨语言检索中语义鸿沟的弥合,即如何克服语言差异导致的查询与文档语义不匹配问题。构建过程中面临标注资源稀缺的困难,需通过人工与自动结合方式完成大规模跨语言相关性评估,同时需处理维基百科文本的结构异质性,确保文档格式与查询语言的规范性。这些挑战共同指向跨语言表示学习与检索效率优化的深层研究需求。
常用场景
经典使用场景
在跨语言信息检索领域,wikiclir/ro数据集以其罗马尼亚语维基百科文档与查询对的丰富结构,成为评估和学习排序模型的关键基准。研究者通常利用该数据集训练模型,以实现在不同语言间高效匹配查询与相关文档,特别是在资源相对有限的罗马尼亚语环境中,这为跨语言检索系统的性能优化提供了标准化测试平台。
实际应用
在实际应用中,wikiclir/ro数据集能够赋能多语言搜索引擎和智能助手,提升其在罗马尼亚语用户群体中的服务能力。例如,它可以用于优化本地化新闻推荐、学术文献发现或商业信息查询系统,确保用户使用母语提问时,仍能精准获取跨语言的高质量内容,从而增强数字服务的可及性和用户体验。
衍生相关工作
围绕wikiclir/ro数据集,学术界衍生了一系列经典研究,特别是基于共享表示的跨语言学习排序方法。这些工作深入探索了神经网络架构、预训练语言模型在跨语言检索中的迁移能力,不仅验证了数据集的实用价值,还催生了更高效的跨语言表示学习框架,为后续多语言检索模型的创新提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作