five

wikifacts-articles, wikifacts-para, wikifacts-sents, wikifacts-window

收藏
arXiv2025-11-07 更新2025-11-11 收录
下载链接:
https://huggingface.co/collections/msu-rcc-lair/rusbeir-datasets-6720fb076978ab6a77f4f64c
下载链接
链接失效反馈
官方服务:
资源简介:
wikifacts系列数据集是一系列基于俄语维基百科“你知道吗?”部分的有趣事实及其引用的维基百科文章构建的俄语信息检索数据集。这些数据集支持事实核查、检索增强生成和完整文档检索等任务。数据集创建方法允许扩展现有的俄语信息检索资源。通过广泛的实验,该研究扩展了RusBEIR研究,比较了BM25等词汇检索模型与为俄语微调的最先进的神经网络模型,以及多语言模型。结果表明,在完整文档检索方面,词汇方法往往优于神经网络模型,而神经网络方法在较短文本中更好地捕捉词汇语义,例如在事实核查或细粒度检索中。使用新创建的数据集,研究人员还分析了文档长度对检索性能的影响,并表明结合检索与神经重排序可以持续提高结果。这些数据集的创建扩大了俄语信息检索研究可用的资源,并强调了准确评估检索模型以实现最佳性能的重要性。所有数据集均可在HuggingFace上公开获取。

The Wikifacts series is a collection of Russian-language information retrieval (IR) datasets constructed from engaging trivia facts from the "Did You Know?" section of the Russian Wikipedia and their corresponding cited Wikipedia articles. These datasets support tasks such as fact checking, retrieval-augmented generation (RAG), and full-document retrieval. The dataset creation methodology enables the expansion of existing Russian-language IR resources. Through extensive experiments, this study extends the RusBEIR research by comparing lexical retrieval models (e.g., BM25) against state-of-the-art (SOTA) neural models fine-tuned for Russian, as well as multilingual models. The results show that lexical methods often outperform neural models for full-document retrieval, while neural approaches better capture lexical semantics in shorter texts, such as in fact checking or fine-grained retrieval tasks. Using the newly created datasets, researchers also analyzed the impact of document length on retrieval performance, and demonstrated that combining retrieval with neural re-ranking consistently improves results. The creation of these datasets expands the resources available for Russian-language IR research, and emphasizes the importance of accurate evaluation of retrieval models to achieve optimal performance. All datasets are publicly available on Hugging Face.
提供机构:
莫斯科国立大学, 俄罗斯 & 南乌拉尔国立大学, 车里雅宾斯克, 俄罗斯
创建时间:
2025-11-07
搜集汇总
数据集介绍
main_image_url
构建方式
在俄语信息检索研究领域,构建高质量数据集对于推动模型评估与技术发展至关重要。wikifacts系列数据集创新性地利用俄语维基百科的'你知道吗...'栏目作为核心数据源,通过系统化标注流程构建而成。研究团队首先从该栏目提取趣味性事实陈述及其关联的维基百科文章,随后组织55名标注者对相关文章进行句子级相关性标注,采用三级评分体系:完整包含事实信息的句子标记为2分,部分相关标记为1分,无关内容标记为0分。这种标注方法无需人工构建查询语句,显著降低了标注成本,同时确保了数据质量的一致性。
使用方法
该数据集系列遵循BEIR和RusBEIR基准的标准格式,通过HuggingFace平台公开提供完整资源。研究人员可分别获取存储为JSONL格式的语料库与查询集,以及TSV格式的相关性标注文件。在实际应用中,该数据集支持多种信息检索任务场景:全文档检索可基于wikifacts-articles评估系统处理长文本能力;事实核查任务可利用wikifacts-sents验证模型对精细语义的捕捉;检索增强生成研究则适合使用wikifacts-window系列测试上下文理解效果。实验表明,结合传统检索方法与神经重排序技术能显著提升系统性能,特别是在处理大规模语料时展现出协同优势。
背景与挑战
背景概述
在信息检索领域,高质量的数据集对推动模型评估和技术进步具有关键作用。wikifacts系列数据集由莫斯科国立大学等机构的研究团队于2025年创建,旨在弥补俄语信息检索资源的不足。该系列基于俄语维基百科的'你知道吗'栏目构建,涵盖全文检索、事实核查和细粒度检索等多种任务,通过句子级标注的三级相关性评分系统,为俄语信息检索研究提供了重要基准。
当前挑战
该数据集致力于解决俄语信息检索中语义理解与多尺度文档处理的挑战,尤其在处理长文档时,神经模型因输入长度限制而表现受限,而传统词法模型虽在长文本检索中稳健,却难以捕捉短文本的语义细节。构建过程中,研究团队需克服俄语复杂形态变化带来的标注困难,通过设计自动化预处理流程和人工标注相结合的方式,确保数据质量与标注一致性,同时平衡计算效率与模型性能的优化。
常用场景
经典使用场景
在俄语信息检索研究领域,wikifacts系列数据集通过俄罗斯维基百科的'你知道吗'板块构建了多粒度检索评估平台。这些数据集支持从完整文档检索到细粒度事实验证的多种任务场景,其中wikifacts-articles适用于评估长文档检索系统的鲁棒性,wikifacts-sents专注于句子级事实核查,而wikifacts-window则专门针对检索增强生成任务设计,通过2-6个句子的滑动窗口评估模型在上下文片段中的表现能力。
解决学术问题
该数据集有效解决了俄语信息检索资源匮乏的核心问题,填补了非英语语言在复杂语言结构研究中的空白。通过提供超过5000个查询和150万文档的大规模标注数据,它使研究者能够系统评估词汇模型与神经模型在不同文本粒度下的性能差异。特别在探索文档长度对检索效果影响方面,该数据集揭示了词汇模型在长文档处理中的优势与神经模型在语义理解方面的特长,为多语言信息检索模型优化提供了关键实证依据。
实际应用
在实际应用层面,wikifacts数据集为俄语搜索引擎优化、智能问答系统和事实核查工具提供了重要测试基准。教育机构可利用其构建知识检索教学平台,新闻媒体能基于事实验证功能开发内容审核系统。在商业领域,该数据集支持企业级文档管理系统开发,特别是在处理俄语法律文档、学术论文等长文本检索场景中,其多粒度设计使得系统能够根据具体需求调整检索策略,平衡精度与效率。
数据集最近研究
最新研究方向
在俄语信息检索领域,基于维基百科‘你知道吗’板块构建的wikifacts系列数据集正推动前沿研究聚焦于多粒度文档检索与神经模型优化的深度融合。当前研究热点集中于探索文档长度对检索性能的影响,实验表明传统词法模型BM25在长文档检索中保持显著优势,而神经模型在短文本语义捕捉方面表现卓越。语言特异性模型如FRIDA和USER-BGE-M3通过针对俄语的精细调优,在滑动窗口数据集中展现出超越多语言模型的潜力。结合神经重排序技术的混合方法成为提升检索精度的关键路径,其通过融合词法召回与语义重排,在扩展数据集上实现了约9%的性能提升。这些进展不仅丰富了俄语检索资源生态,更为跨语言检索模型的适应性研究提供了重要范式。
相关研究论文
  • 1
    Wikipedia-based Datasets in Russian Information Retrieval Benchmark RusBEIR莫斯科国立大学, 俄罗斯 & 南乌拉尔国立大学, 车里雅宾斯克, 俄罗斯 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作