MiLQ

Name: MiLQ
Creator: 韩国浦项科技大学
Published: 2025-05-22 21:03:15
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16631v1

下载链接

链接失效反馈

官方服务：

资源简介：

MiLQ是一个混合语言查询测试集，是第一个公开的混合语言查询基准。该数据集由实际的双语用户创建，旨在解决双语用户在信息检索系统中使用混合语言查询时面临的挑战。数据集包括从CLEF和NeuCLIR22两个跨语言信息检索基准中选取的查询，并由双语用户创建了混合语言版本。数据集的创建过程中采用了矩阵语言框架理论，以确保查询的真实性和自然性。数据集主要用于评估多语言信息检索模型在处理混合语言查询时的性能。

MiLQ is a mixed-language query test collection and the first publicly available mixed-language query benchmark. It was developed by real bilingual users to address the challenges encountered by bilingual users when submitting mixed-language queries in information retrieval systems. The dataset includes queries sourced from two cross-language information retrieval benchmarks, CLEF and NeuCLIR22, with their mixed-language variants created by bilingual users. The matrix language framework theory was employed throughout the dataset creation process to guarantee the authenticity and naturalness of the queries. This dataset is primarily utilized to evaluate the performance of multilingual information retrieval models when processing mixed-language queries.

提供机构：

韩国浦项科技大学

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

MiLQ数据集的构建基于两个跨语言信息检索（CLIR）基准：CLEF和NeuCLIR22，确保了语言场景的多样性和质量。通过筛选符合三个标准的查询（平行英语和母语查询的可用性、广泛用于性能比较、预算可行性），数据集遵循TREC格式，包括短标题和较长描述查询。双语使用者根据原始英语和母语查询对创建了自然的混合语言查询，同时保留原始搜索意图。为了反映真实的语码转换模式，采用了矩阵语言框架理论，并遵循先前研究，将英语术语嵌入到母语结构中，确保概念必要性和语言合理性。

使用方法

MiLQ数据集可用于评估多语言信息检索（IR）模型在混合语言查询上的性能。实验设置包括三种检索场景：MQIR（混合→XX）、MonoIR（XX→XX）和CLIR（XX→YY）。文档集合包括NeuCLIR22和CLEF00-03，查询是标题和描述的拼接，主要使用MAP@100和nDCG@20作为评估指标。通过训练专门的ColBERT-based密集检索模型（Mono-Distill、Cross-Distill和Mixed-Distill），以及基线模型（mContriever和BM25），可以全面评估模型在不同语言场景下的表现。

背景与挑战

背景概述

MiLQ（Mixed-Language Query）数据集由POSTECH（浦项科技大学）的人工智能研究生院和计算机科学与工程系的研究团队于2025年推出，旨在解决信息检索（IR）领域中对混合语言查询研究的不足。该数据集是首个公开的混合语言查询基准测试集，由双语使用者实际构建，确保了其真实性和用户偏好性。研究团队通过实验发现，现有的多语言IR模型在处理混合语言查询时表现中等，且在不同类型的查询（如原生语言、英语和混合语言查询）中表现不一致。MiLQ的推出填补了混合语言查询研究领域的空白，为开发更强大的双语IR模型提供了重要基础。

当前挑战

MiLQ数据集面临的挑战主要包括两个方面：一是领域问题的挑战，即如何有效处理混合语言查询，这在信息检索领域是一个复杂且尚未充分探索的问题，尤其是在多语言环境下，模型需要同时理解并处理不同语言的混合输入；二是构建过程中的挑战，包括如何确保混合语言查询的真实性和自然性，以及如何在有限的预算和资源下，覆盖更多语言对和多样化场景。此外，数据集的规模相对较小，与大型单语基准测试集相比，查询数量有限，这限制了模型的训练和评估效果。未来需要进一步扩展数据集规模，并纳入更多非英语/非原生语言的组合，以提升其广泛适用性。

常用场景

经典使用场景

在跨语言信息检索（CLIR）研究中，MiLQ数据集作为首个公开的混合语言查询基准测试集，为评估多语言信息检索模型在处理双语用户自然输入的混合语言查询时的性能提供了标准化平台。其典型应用场景包括：研究人员通过对比模型在原生查询、英语查询及混合查询上的表现差异，验证模型对代码切换现象的适应能力；同时作为训练集用于优化神经检索模型的跨语言表征学习，特别是在低资源语言场景下提升混合查询的语义理解精度。

解决学术问题

该数据集有效解决了信息检索领域长期存在的三个关键问题：其一，填补了混合语言查询缺乏标准化评估基准的空白，使得MQIR（混合查询信息检索）成为可量化研究的子领域；其二，通过实证揭示了现有跨语言检索模型在混合查询场景下的性能局限性，如BM25与神经模型在不同语言资源条件下的表现反转现象；其三，从语言学角度验证了矩阵语言框架理论在查询构造中的适用性，为代码切换模式研究提供了可计算的分析范式。这些突破对构建真正适应双语用户搜索习惯的下一代检索系统具有奠基意义。

实际应用

在实际搜索场景中，MiLQ直接服务于多语言搜索引擎的优化，特别是针对德语-英语、索马里语-英语等双语用户群体的垂直搜索产品。其揭示的查询策略（如在检索英文文档时有意混合英语术语）已被应用于提升跨境电商平台的搜索准确率。教育领域则利用该数据集开发双语搜索教学工具，帮助语言学习者掌握高效的混合查询构建技巧。此外，内容推荐系统通过分析数据集中代码切换的POS分布规律，优化了对混合语言用户兴趣建模的准确性。

数据集最近研究