MultiTEND

Name: MultiTEND
Creator: 香港理工大学
Published: 2025-02-16 15:12:47
License: 暂无描述

arXiv2025-02-16 更新2025-02-19 收录

下载链接：

https://arxiv.org/abs/2502.11022v1

下载链接

链接失效反馈

官方服务：

资源简介：

MultiTEND是由香港理工大学等机构提出的首个大型多语言自然语言至NoSQL查询生成基准数据集，包含英语、德语、法语、俄语、日语和普通话六种语言。该数据集通过半自动化管道将单语言数据集扩展为多语言版本，包括数据库字段、自然语言查询(NLQ)和NoSQL查询的翻译。数据集涵盖了101,789个NLQ和20,351个相应的查询，旨在解决多语言环境下自然语言至NoSQL查询生成的结构性和词汇性挑战。

MultiTEND is the first large-scale multilingual benchmark dataset for natural language-to-NoSQL query generation, proposed by The Hong Kong Polytechnic University and other institutions. It encompasses six languages: English, German, French, Russian, Japanese, and Mandarin Chinese. This dataset expands monolingual datasets into multilingual variants through a semi-automated pipeline, covering the translation of database fields, natural language queries (NLQs), and NoSQL queries. It comprises 101,789 NLQs and 20,351 corresponding NoSQL queries, and is designed to address the structural and lexical challenges in natural language-to-NoSQL query generation within multilingual environments.

提供机构：

香港理工大学

创建时间：

2025-02-16

搜集汇总

数据集介绍

构建方式

MultiTEND数据集的构建采用了半自动化流程，将单语数据集扩展为多语版本，涵盖英语、德语、法语、俄语、日语和中文六种语言。构建过程分为三个步骤：数据库字段的翻译，自然语言查询的翻译以及NoSQL查询的翻译。每个步骤都结合了机器生成的数据和严格的人工验证，以确保数据的质量和准确性。

使用方法

MultiTEND数据集可以用于训练和评估多语言自然语言到NoSQL查询生成的模型。数据集包含了详细的构建方法和使用说明，用户可以参考相关文档和论文来了解如何使用数据集。此外，数据集还可以用于研究和分析多语言自然语言到NoSQL查询生成的挑战，以及如何解决这些挑战。

背景与挑战

背景概述

在当今大数据时代，NoSQL数据库对于管理和处理大量非结构化和半结构化数据至关重要。然而，NoSQL查询语言的复杂性和异质性对于缺乏高级技术技能的用户来说是一个巨大的挑战。为了解决这个问题，自然语言界面（NLIs）的发展日益受到关注。这些界面旨在允许用户以自然语言与NoSQL数据库交互，从而简化对复杂数据的访问并降低技术门槛。通过将自然语言查询（NLQs）转换为可执行的NoSQL查询（即文本到NoSQL（Lu等人，2025年）），这些系统可以显著提高用户的生产力和数据可访问性。然而，现有的自然语言到NoSQL查询生成系统和基准主要关注英语，这严重限制了这些系统对于非英语用户的可用性，而非英语用户占全球人口的一大部分。为了解决上述问题，我们引入了MultiTEND，这是第一个多语言基准，用于自然语言到NoSQL查询生成，涵盖了六种不同的语言：英语、德语、法语、俄语、日语和普通话。MultiTEND不仅将自然语言到NoSQL查询生成的范围扩展到多语言环境，而且还对文本到NoSQL任务提出了额外的挑战。基于我们实验的结果（第3.2节），我们将MultiTEND中的挑战分为结构挑战和词汇挑战。特别是，结构挑战指的是模型在多语言意图映射任务中面临的困难，这主要是由于语言之间的句法差异，阻碍了准确映射到NoSQL操作符。此外，词汇挑战代表了模型在多语言环境中面临的模式链接困难，这是由于词汇差异（例如，日语平假名和片假名、俄语西里尔字母以及德语和法语中的形态变化）以及NoSQL结构的复杂性（例如，嵌套文档和数组处理）。为了解决这些挑战，我们提出了MultiLink，这是一个新颖的框架，通过并行链接过程弥合了多语言输入到NoSQL查询生成的差距。它将任务分解为多个步骤，整合并行多语言处理、思维链（CoT）推理和检索增强生成（RAG）来解决多语言NoSQL生成中固有的词汇和结构挑战。MultiLink在所有指标上都显示出对每种语言的改进，与最佳基线相比，将执行精度提高了约15%，英语提高了约15%，非英语语言平均提高了10%。

当前挑战

MultiTEND数据集的挑战主要分为结构挑战和词汇挑战。结构挑战指的是模型在多语言意图映射任务中面临的困难，这主要是由于语言之间的句法差异，阻碍了准确映射到NoSQL操作符。此外，词汇挑战代表了模型在多语言环境中面临的模式链接困难，这是由于词汇差异（例如，日语平假名和片假名、俄语西里尔字母以及德语和法语中的形态变化）以及NoSQL结构的复杂性（例如，嵌套文档和数组处理）。这些挑战导致了在多语言环境中自然语言到NoSQL查询生成的准确性和效率的降低。为了解决这些挑战，我们提出了MultiLink框架，它通过并行链接过程和多语言上下文信息来解决这些挑战，从而生成更准确和语义一致的NoSQL查询。

常用场景

经典使用场景

MultiTEND数据集主要被用于研究自然语言到NoSQL查询的转换任务，特别是跨语言的查询生成。研究人员可以利用这个数据集来训练和评估模型在不同语言环境下的表现，以及解决多语言查询生成中的词汇和结构挑战。此外，这个数据集也可以用于研究NoSQL数据库的自然语言接口，帮助非技术用户更轻松地与NoSQL数据库交互。

解决学术问题

MultiTEND数据集解决了多语言环境中自然语言到NoSQL查询生成的挑战。通过覆盖六种语言，这个数据集为研究人员提供了一个全面的平台来研究不同语言结构对查询生成的影响，以及如何解决词汇和结构上的差异。此外，这个数据集还可以用于研究如何提高NoSQL数据库的自然语言接口的准确性和可靠性。

实际应用

MultiTEND数据集的实际应用场景包括开发多语言支持的自然语言接口，帮助非技术用户与NoSQL数据库交互。此外，这个数据集还可以用于开发多语言支持的数据分析和决策支持系统，帮助用户从NoSQL数据库中提取有用的信息。此外，这个数据集还可以用于研究如何提高NoSQL数据库的自然语言接口的准确性和可靠性。

数据集最近研究