nickoo004/queryshield-multilingual

Name: nickoo004/queryshield-multilingual
Creator: nickoo004
Published: 2026-04-25 11:33:06
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/nickoo004/queryshield-multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

QueryShield是一个高质量的多语言提示优化数据集，旨在训练大型语言模型（LLMs）成为30个专业领域的专家级响应者。数据集包含原始用户问题和详细的指令提示，指导下游LLM如何回答问题，而非直接提供答案。数据集涵盖乌兹别克语、卡拉卡尔帕克语、哈萨克语、俄语和英语，包括用户用一种语言提问但要求用另一种语言回答的跨语言场景。数据集总行数约19,530，其中约28%为跨语言对。数据格式为JSONL，每个JSON对象包含用户问题、优化提示、输入输出语言代码、目标角色等字段。数据集适用于指令调整、多语言提示优化和中亚语言支持。

QueryShield is a high-quality synthetic dataset of prompt optimization pairs designed to train LLMs to act as expert-level responders across 30 professional domains. Each row contains a raw user question and a detailed instruction prompt telling a downstream LLM how to answer it — not the answer itself. The dataset is multilingual, covering Uzbek, Karakalpak, Kazakh, Russian, and English, including cross-lingual scenarios where the user writes in one language but requests a response in another. It contains ~19,530 rows, with ~28% being cross-lingual pairs. The data is in JSONL format, with each JSON object including fields like user_question, optimized_prompt, input/output language codes, and target_role. It is intended for instruction tuning, multilingual prompt optimization, and Central Asian language support.

提供机构：

nickoo004

搜集汇总

数据集介绍

构建方式

QueryShield-Multilingual数据集是一个专为多语言提示优化而构建的高质量合成数据集，其构建过程采用了两阶段生成管线。首先，利用DeepSeek、Gemini及Qwen等先进大语言模型，在30个专业领域内模拟用户生成带有拼写错误、模糊表述或情绪色彩的真实用户查询。随后，将每条原始查询交由模型生成一份详尽的英文优化提示，该提示明确规定了回答所需的角色、语言、语气、格式及边界条件。数据涵盖五种语言，包含约28%的跨语言场景，最终以JSONL格式存储，共计约19,530条语料。

使用方法

数据集主要用于指令微调、多语言提示优化及中亚语言支持等场景。用户可直接从Hugging Face下载`data/queryshield_multilingual.jsonl`文件，每条记录包含`user_question`、`optimized_prompt`、`target_role`等关键字段。在训练时，可设计将原始用户查询和优化提示作为输入输出对，使模型学习如何根据角色和语言指令生成专业回复。此外，该数据集可作为QueryShield系统的训练数据，用于将原始查询重写为结构化提示后供大模型推理使用。

背景与挑战

背景概述

QueryShield-Multilingual 数据集由研究者 nickoo004 于 2026 年创建，旨在解决多语言与跨语言场景下的大型语言模型（LLM）指令优化问题。该数据集聚焦于中亚地区语言，包括乌兹别克语、卡拉卡尔帕克语、哈萨克语、俄语及英语，覆盖 30 个专业领域，共计约 19,530 条合成生成的提示优化对。其核心研究问题在于如何通过结构化角色提示和跨语言路由指令，提升 LLM 在低资源语言（如卡拉卡尔帕克语）及跨语言问答中的响应质量。作为 QueryShield 系统的重要组成部分，该数据集为多语言指令微调和提示优化提供了基准资源，对推动低资源语言 NLP 研究具有显著影响力。

当前挑战

该数据集所解决的领域挑战在于多语言和跨语言场景下 LLM 提示优化中的语言歧义性与角色对齐问题，例如用户可能以乌兹别克语提问但期望卡拉卡尔帕克语回答，而模型需兼顾语义准确性和语言转换。构建过程中遇到的挑战包括：1) 低资源语言（如卡拉卡尔帕克语）的生成质量受限，合成数据可能引入噪声；2) 跨语言对占比高达 45%，需人工验证语言路由的合理性；3) 所有优化提示（optimized_prompt）限定为英文，可能无法完全覆盖源语言的文化上下文；4) 30 个领域的专家角色覆盖广度大，但难以保证每个领域均达到同等深度。

常用场景

经典使用场景

QueryShield-Multilingual数据集的核心使用场景聚焦于多语言提示优化与指令微调，尤其在覆盖乌兹别克语、卡拉卡尔帕克语、哈萨克语、俄语和英语等中亚及跨语言场景下表现突出。该数据集包含约19,530条高质量的合成数据对，每条数据由原始用户问题与优化后的专家级指令提示组成，旨在训练大型语言模型在面对跨语言或单语言查询时，能够精准理解用户意图并遵循角色导向生成专业回答。其经典用法包括构建具备多语言理解与生成能力的对话系统，以及通过跨语言配对（约占28%至45%）实现语言路由和风格控制，成为低资源语言模型提升应答质量的重要工具。

解决学术问题

该数据集有效回应了多语言自然语言处理领域中若干学术挑战。首先，它解决了低资源语言（如卡拉卡尔帕克语）训练数据匮乏的问题，通过合成数据策略填补了这些语言在指令微调语料上的空白。其次，针对跨语言提示优化这一前沿问题，数据集中近半数的跨语言条目为研究语言无关的语义保持与语言路由机制提供了实验基础。此外，数据集覆盖30个专业领域，为探究领域适应性与角色导向生成能力的泛化边界提供了标准化评估框架，推动了对多语言条件下的提示工程与知识迁移机制的深入理解。

实际应用

在实际应用层面，QueryShield-Multilingual展现出广泛的部署价值。在服务于中亚地区的企业级AI助手中，该数据集可用于微调模型以精准回复涉及乌兹别克语、哈萨克语等用户的技术咨询，如机械工程、医疗健康或金融服务等领域。它同样支持构建跨语言客户支持系统，例如用户以乌兹别克语提问而希望获得卡拉卡尔帕克语回答的场景。此外，作为QueryShield系统的核心组件，该数据集赋能了将原始用户提问自动改写为结构化指令提示的预处理管线的开发，有效提升了下游LLM在专业问答中的一致性与准确性。

数据集最近研究