hcm777/query-embedding-mix-word-mix

Name: hcm777/query-embedding-mix-word-mix
Creator: hcm777
Published: 2026-04-25 07:55:25
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/hcm777/query-embedding-mix-word-mix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集伴随ACL 2026论文发布，专注于多语言密集检索中的混合语言查询。它包含了用于附录验证工作流程的词级代码混合查询捆绑包，用于检查嵌入级插值是否遵循类似的比率趋势。数据集覆盖了四种语言对（EN-ZH, EN-VI, ZH-VI, HI-ID），每种语言对都提供了Hugging Face配置支持的标准化Parquet文件、原始TSV捆绑包以及每对的元数据和校验和。数据集主要用于研究目的，不是训练/测试基准包。

This dataset accompanies our ACL 2026 paper on mixed-language queries in multilingual dense retrieval. It packages the word-level code-mixed query bundles used in the appendix validation workflow, where word-mix is used as a probe to check whether embedding-level interpolation follows similar ratio trends. The release covers four validation pairs (EN-ZH, EN-VI, ZH-VI, HI-ID), each available as a Hugging Face configuration backed by a normalized Parquet file, the original TSV bundle, and per-pair metadata and checksums. The dataset is a paper-facing artifact release, not a train/test benchmark package.

提供机构：

hcm777

搜集汇总

数据集介绍

构建方式

该数据集为ACL 2026研究论文的附属产物，聚焦于多语言稠密检索中混合语言查询的验证工作。数据集构建基于词级代码混合技术，以词混合作为探针，检验嵌入层插值是否遵循相似的比率趋势。研究团队选取了四组语言对——英语-中文、英语-越南语、中文-越南语以及印地语-印度尼西亚语，通过生成不同混合比率的查询语料，构建了包含多条目、每对语言数千至数万不等的标准化Parquet文件。原始TSV包则作为溯源副本保留于raw目录下，确保数据生成流程的透明可复现。

特点

数据集的核心特点在于其多语言覆盖与精细化比率标注体系。每条记录均包含语言对标识、源语言与目标语言代码、混合比率标签（如0、20-40、100）及其对应的数值边界与中点，为研究不同混合程度对检索性能的影响提供了精确的粒度控制。数据集中还引入了通用查询标识符标记，便于跨语言对筛选共享查询条目。整体规模介于1万至10万条之间，兼顾了实验的统计可靠性与计算效率，专为学术验证而非训练基准设计。

使用方法

使用者可通过Hugging Face的datasets库便捷加载数据，例如调用load_dataset函数指定语言对配置名即可获取训练集。Parquet格式是推荐的数据接口，支持高效过滤操作，如按比率标签筛选特定混合频段或提取通用查询条目。若需原始TSV格式进行深度检查，可利用huggingface_hub的snapshot_download功能下载完整仓库。数据集的元数据文件夹提供了每对语言的文件清单、校验和摘要，便于验证数据完整性和进行精细化编排管理。

背景与挑战

背景概述

在全球化与多语言信息检索研究蓬勃发展的背景下，该数据集由新加坡国立大学的研究人员Tongyao Zhu、Chao-Ming Huang和Min-Yen Kan于2026年创建，旨在探索多语言稠密检索中查询混合表示的效能。作为ACL 2026会议论文《When Does Mixing Help? Analyzing Query Embedding Interpolation in Multilingual Dense Retrieval》的附带验证性资源，其核心研究问题聚焦于查询嵌入层级的插值操作与词级别语码混合行为之间的关联趋势。数据集覆盖英中、英越、中越、印地-印尼语四组语言对，通过精细的比率分带设计，为多语言检索中的混合策略分析提供了标准化评测基准，对推动跨语言信息检索的实证研究具有重要参考价值。

当前挑战

该数据集所解决的领域核心挑战包括：多语言稠密检索中查询嵌入混合的有效边界界定——现有方法缺乏对混合比例与检索性能之间非线性关系的系统理解，而本研究通过词级别语码混合作为探针，揭示了嵌入层插值行为的潜在局限。在构建过程中面临的挑战涉及多语言数据平衡与质量控制：需从不同源语言对中提取标准化的查询标识符集合，并保证语码混合的比率分带（如20-40%、40-60%等）与纯端点样本具有统计可比性；此外，还需协调四组语言对间约1.4万至2.8万条行记录的异质性，消除源查询文本分布偏差对下游分析的影响。

常用场景

经典使用场景

在跨语言信息检索与多语言自然语言处理的研究疆域中，Query Embedding Mix Word-Mix Query Bundles数据集以其精巧的构式著称，为探究混合语言查询在稠密检索中的行为提供了标准化的验证载体。该数据集的核心用途在于通过词级语码混合的查询包，系统性地剖析嵌入层插值策略在不同语言对上的效益边界。研究者常利用其细粒度的比例带划分（如20-40、80-100等）与纯端点样本，进行控制实验以量化语码混合程度对检索质量的影响，从而揭示单一语言查询与完全混合表示之间的连续谱系关系。

解决学术问题

该数据集精准回应了多语言稠密检索中一个悬而未决的学术难题——何时以及为何嵌入插值能够提升跨语言查询表现。通过构建EN-ZH、EN-VI、ZH-VI及HI-ID等多元语言对的词级混合查询束，它使研究者得以脱离以往仅关注双语或多语独立表示的局限，转而考察语码混合比例这一连续变量对检索精度、相关性排序及模型泛化能力的系统性影响。其意义在于为验证嵌入插值假设提供了透明可复现的实验基底，推动了对比分析方法的标准化，并揭示了混合语言查询中隐含的非线性增益规律。

衍生相关工作

该数据集作为ACL 2026研究成果的附属发布品，已衍生了多项后续探索工作。主论文《When Does Mixing Help?》建立在词级混合查询束的验证流程之上，揭示了嵌入层插值在不同语言配对的语码混合率范围内呈现的相变特征。相关工作还包括基于此数据集的复制研究，用于检验稠密检索模型在跨语言零样本场景下的稳定性，以及对比词级混合与嵌入级混合在语义保留度上的差异。此外，研究社区正借助其公开的原始TSV包与Parquet格式接口，发展出新的语码混合程度度量指标和可解释性分析工具，进一步拓展了多语言检索的理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集