five

irds/mr-tydi_ko_test

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/mr-tydi_ko_test
下载链接
链接失效反馈
官方服务:
资源简介:
`mr-tydi/ko/test`数据集由`ir-datasets`包提供,主要用于文本检索任务。该数据集包含421个查询(即主题)和492个相关性评估(qrels)。文档数据需要从`irds/mr-tydi_ko`数据集中获取。

The `mr-tydi/ko/test` dataset, provided by the `ir-datasets` package, is primarily designed for text retrieval tasks. It comprises 421 queries (i.e., topics) and 492 relevance judgments (qrels). The document data for this dataset must be retrieved from the `irds/mr-tydi_ko` dataset.
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

mr-tydi/ko/test

数据来源

  • 源数据集:irds/mr-tydi_ko

任务类别

  • 文本检索

数据内容

  • queries(查询):421条
  • qrels(相关性评估):492条
  • docs(文档):使用irds/mr-tydi_ko数据集

使用示例

python from datasets import load_dataset

queries = load_dataset(irds/mr-tydi_ko_test, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/mr-tydi_ko_test, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@article{Zhang2021MrTyDi, title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin}, year={2021}, journal={arXiv:2108.08787}, } @article{Clark2020TyDiQa, title={{TyDi QA}: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author={Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}, year={2020}, journal={Transactions of the Association for Computational Linguistics} }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息检索领域,mr-tydi/ko/test 数据集作为 Mr. TyDi 多语言基准的重要组成部分,其构建遵循严谨的学术规范。该数据集源自 ir-datasets 包,专门针对韩语测试场景设计,包含 421 个查询主题及 492 条相关性评估标注。文档数据则需关联基础数据集 irds/mr-tydi_ko,通过标准化流程整合多语言语料,确保评估体系在语言类型学上的代表性。
特点
该数据集显著特点在于其专注于韩语信息检索的评估需求,为多语言密集检索研究提供了精准的测试环境。数据集结构清晰,明确区分查询、相关性标注与文档集合,支持对检索模型在特定语言上的性能进行细粒度分析。作为 Mr. TyDi 基准的组成部分,它继承了其多语言、信息寻求型问答的设计理念,有助于推动跨语言检索技术向更公平、更全面的方向演进。
使用方法
研究人员可通过 Hugging Face 的 datasets 库便捷加载该数据集。使用 load_dataset 函数分别载入 'queries' 与 'qrels' 模块,即可迭代获取查询文本及其对应的相关性标注信息。文档数据需从指定的基础数据集独立加载。这种模块化设计便于直接对接现有检索评估流程,为模型训练与测试提供了即插即用的数据接口,有效支撑跨语言检索算法的实验与比较。
背景与挑战
背景概述
随着多语言信息检索研究的深入,跨语言检索系统在全球化信息获取中的重要性日益凸显。由Xinyu Zhang、Xueguang Ma、Peng Shi和Jimmy Lin等研究人员于2021年创建的Mr. TyDi数据集,作为TyDi QA基准的延伸,专注于为韩语等11种语言提供密集检索评估框架。该数据集由ir-datasets包提供,其核心研究问题在于解决多语言环境下信息检索模型的泛化能力与语言适应性,通过构建标准化的查询与相关性标注,推动了跨语言检索技术在非英语语种上的应用与发展,对自然语言处理领域的多语言模型评估产生了深远影响。
当前挑战
Mr. TyDi数据集面临的挑战主要体现在两个方面:在领域问题层面,多语言密集检索需克服语言类型差异带来的语义对齐难题,例如韩语等黏着语与英语等孤立语在句法结构上的显著区别,这要求模型具备跨语言语义理解与检索精度的高效平衡;在构建过程中,数据收集与标注面临资源稀缺语言的语料获取困难,以及人工评估中确保多语言查询与文档间相关性标注的一致性与可靠性,这些因素共同增加了数据集构建的复杂性与成本。
常用场景
经典使用场景
在跨语言信息检索领域,mr-tydi/ko/test数据集作为韩语测试集,为评估多语言密集检索模型提供了标准化基准。该数据集包含421个查询主题及492个相关性标注,常被用于验证模型在韩语环境下的检索性能,特别是在处理非拉丁语系语言时,能够检验模型对语言形态和语义结构的适应性。研究者通过该数据集对比不同检索算法,探索跨语言表示学习的效果,推动多语言检索技术向更精准的方向发展。
解决学术问题
该数据集有效解决了多语言信息检索中韩语资源匮乏的学术难题,为跨语言检索模型提供了可靠的评估标准。通过提供高质量的查询和相关性标注,它支持研究者分析模型在韩语语境下的语义理解能力,促进了对非英语语言检索性能的系统性研究。其存在推动了跨语言表示学习、低资源语言检索优化等前沿方向的发展,为构建包容性更强的多语言人工智能系统奠定了数据基础。
衍生相关工作
基于mr-tydi/ko/test数据集,学术界衍生了一系列经典研究工作,例如多语言密集检索模型如mDPR和mContriever的评估与改进。这些工作深入探索了跨语言表示对齐、低资源语言检索增强等技术,推动了如Language-agnostic BERT和InfoXLM等模型在韩语任务上的应用。相关研究还扩展至多语言问答系统优化,为后续构建更健壮的多语言人工智能框架提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作