five

irds/wikiclir_tr

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/wikiclir_tr
下载链接
链接失效反馈
官方服务:
资源简介:
`wikiclir/tr`数据集由`ir-datasets`包提供,包含文档、查询和相关性评估三部分数据。具体包括:295,593个文档、185,388个查询和380,651个相关性评估。该数据集可用于文本检索任务。

The `wikiclir/tr` dataset is provided by the `ir-datasets` package, and consists of three core data components: documents, queries, and relevance assessments. Specifically, it contains 295,593 documents, 185,388 queries, and 380,651 relevance assessment records. This dataset is applicable to text retrieval tasks.
提供机构:
irds
原始信息汇总

数据集概述

数据集名称

wikiclir/tr

数据来源

ir-datasets 包提供。

数据内容

  • 文档 (docs): 总数为295,593。
  • 查询 (queries): 总数为185,388。
  • 相关性评估 (qrels): 总数为380,651。

数据使用示例

python from datasets import load_dataset

docs = load_dataset(irds/wikiclir_tr, docs) for record in docs: record # {doc_id: ..., title: ..., text: ...}

queries = load_dataset(irds/wikiclir_tr, queries) for record in queries: record # {query_id: ..., text: ...}

qrels = load_dataset(irds/wikiclir_tr, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}

引用信息

@inproceedings{sasaki-etal-2018-cross, title = "Cross-Lingual Learning-to-Rank with Shared Representations", author = "Sasaki, Shota and Sun, Shuo and Schamoni, Shigehiko and Duh, Kevin and Inui, Kentaro", booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N18-2073", doi = "10.18653/v1/N18-2073", pages = "458--463" }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息检索领域,wikiclir/tr数据集的构建体现了对多语言知识对齐的深度探索。该数据集源自维基百科的土耳其语子集,通过系统化的文档抽取与结构化处理,形成了包含近三十万篇文档的语料库。构建过程中,研究者精心设计了十八万余条查询语句,并基于专业标注生成了超过三十八万条相关性评估,确保了数据在跨语言检索任务中的代表性与可靠性。
特点
wikiclir/tr数据集的核心特点在于其跨语言检索的专门化设计。该数据集不仅提供了大规模的土耳其语文档集合,还配备了丰富的查询与相关性标注,为研究跨语言学习排序模型提供了坚实基础。其结构清晰,文档、查询及评估数据分离明确,便于研究者针对不同任务模块进行灵活调用与分析,显著提升了实验的可复现性与效率。
使用方法
利用wikiclir/tr数据集进行跨语言检索研究时,研究者可通过Hugging Face的datasets库便捷加载。分别调用'docs'、'queries'和'qrels'三个子集,即可获取文档的标题与正文、查询文本及其对应相关性评分。这种模块化的访问方式支持快速迭代实验,使研究者能够专注于模型设计与性能评估,无需在数据预处理上耗费过多精力。
背景与挑战
背景概述
跨语言信息检索作为自然语言处理领域的关键研究方向,致力于解决不同语言间信息获取的障碍。wikiclir/tr数据集由Sasaki等人于2018年构建,依托ir-datasets平台发布,专注于土耳其语与英语之间的跨语言检索任务。该数据集包含约29.6万篇文档和18.5万条查询,通过共享表示学习方法,旨在探索多语言语义空间的统一表征机制,为低资源语言检索模型提供重要基准,显著推动了跨语言学习排序技术的发展。
当前挑战
该数据集核心挑战在于跨语言检索中语义对齐的复杂性,需克服土耳其语与英语间的形态学差异和词汇空缺问题。构建过程中面临多语言平行语料稀缺的困境,需通过维基百科条目构建高质量查询-文档对,并确保评估标注在多语言场景下的可靠性。此外,数据规模与质量平衡、低资源语言特征表示优化等工程挑战亦贯穿始终。
常用场景
经典使用场景
在跨语言信息检索领域,wikiclir/tr数据集作为土耳其语维基百科文档与查询对的基准资源,其经典使用场景集中于评估和优化跨语言学习排序模型。该数据集通过提供大量文档、查询及相关性标注,使研究者能够系统测试模型在土耳其语环境下的检索性能,尤其在处理语言差异和语义对齐挑战时,成为验证模型泛化能力的关键工具。
解决学术问题
该数据集有效解决了跨语言信息检索中常见的学术研究问题,如低资源语言下的语义表示共享和相关性排序偏差。通过构建土耳其语与其他语言间的对齐语料,它促进了跨语言表示学习的发展,帮助研究者探索如何减少语言障碍对检索精度的影响,从而推动多语言自然语言处理技术的理论进步与应用边界拓展。
衍生相关工作
基于wikiclir/tr数据集,衍生了一系列经典研究工作,例如跨语言学习排序框架的优化与扩展。这些工作不仅深化了对共享表示机制的理解,还催生了如多语言预训练模型和自适应检索算法的创新,进一步推动了信息检索领域向更高效、更包容的多语言环境演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作