natural-language-to-atlas-search

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/mongodb-eai/natural-language-to-atlas-search

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含153个自然语言问题和Atlas Search代码对，使用LLM合成数据生成流程生成，并基于简单英文维基百科数据集。数据集用于评估大型语言模型将自然语言查询转换为可执行Atlas Search代码的能力。

创建时间：

2025-10-17

原始信息汇总

Natural Language to Atlas Search Benchmark 数据集概述

数据集基本信息

数据集名称: Natural Language to Atlas Search Benchmark
许可证: MIT
创建者: Ben Perlmutter (ben.p@mongodb.com)
创建时间: 2025年10月16日

数据集目的

评估大型语言模型将自然语言查询转换为可执行的Atlas Search代码的能力，为构建自然语言到Atlas Search查询系统提供指导。

任务描述

模型需要根据自然语言查询生成Atlas Search查询，通过MongoDB MCP服务器数据库工具访问数据，并使用NDCG@10作为主要评估指标。

任务示例

自然语言查询: "Quick title search: show me the top 10 most relevant article titles that autocomplete from the prefix Japan nat"
模型输出: Atlas Search聚合管道代码
评估指标: NDCG@10

评估数据集

数据规模: 153个自然语言问题与Atlas Search代码对
数据生成: 使用LLM合成数据生成流程
基础数据: Simple English Wikipedia数据集
数据格式: CSV格式
数据集地址: https://huggingface.co/datasets/mongodb-eai/natural-language-to-atlas-search/blob/main/natural-language-to-atlas-search-dataset.csv

评估模型

成功评估的模型

模型	NDCG@10得分
GPT-5 (medium reasoning)	0.668
GPT-5-mini (medium reasoning)	0.240
GPT-4.1	0.604
GPT-4o	0.609
Claude Sonnet 4.5	0.684
Claude Sonnet 4	0.668
Claude 3.7 Sonnet	0.507
Gemini 2.5 Flash	0.261

无法评估的模型

Google Gemini 2.5 Pro: API不支持高度嵌套的JSON模式
Claude 4.5 Haiku: 无法理解系统提示限制

评估指标

SuccessfulExecution: 查询是否成功执行（二进制）
NonEmptyArrayOutput: 输出是否为非空数组（二进制）
SearchOperatorUsed: 是否使用Atlas Search操作符（二进制）
NDCG@10: 标准化折损累积增益@10（主要指标）
eXNeON: 复合指标（SuccessfulExecution、NonEmptyArrayOutput、OperatorUsed、NDCG@10的平均值）

主要发现

模型性能相关性

前沿模型在通用基准测试（MMLU-Pro、Chatbot Arena ELO）与本基准测试性能存在相关性
Chatbot Arena ELO是NDCG@10性能的最强预测因子（R²=0.365）

小模型表现

GPT-5-mini和Gemini 2.5 Flash表现较差
小模型不适合直接用于自然语言到Atlas Search任务

提示优化

没有明确的"最佳"提示策略
GPT-5和Claude Sonnet 4.5对不同的提示策略反应不同
建议针对特定模型使用评估来优化提示

相关资源

源代码: https://github.com/mongodb/ai-benchmarks
完整结果: https://www.braintrust.dev/app/mongodb-education-ai/p/natural-language-to-atlas-search/experiments
数据库: https://huggingface.co/datasets/wikimedia/wikipedia/viewer/20231101.simple

搜集汇总

数据集介绍

构建方式

在自然语言处理与数据库查询交互的交叉领域，该数据集采用合成数据生成技术构建而成。研究人员基于简化版维基百科数据库，通过精心设计的LLM数据生成管道，系统性地创建了153组自然语言查询与Atlas搜索代码的配对样本。这种构建方式确保了数据集的多样性和实用性，为评估大语言模型在自然语言到数据库查询转换任务上的表现提供了可靠基准。

特点

该数据集具有显著的专业性和实用性特征，专注于评估大语言模型将自然语言转换为MongoDB Atlas搜索查询的能力。其独特之处在于采用了多维度评估体系，不仅考察查询语法的正确性，更通过NDCG@10等搜索相关性指标深入评估查询结果的质量。数据集还配备了完整的评估指标集，包括执行成功率、非空输出率等，为全面评估模型性能提供了坚实基础。

使用方法

使用该数据集时，研究人员需将自然语言查询输入待评估的大语言模型，模型需要生成对应的Atlas搜索查询代码。生成的代码将在预配置的维基百科数据库上执行，执行结果将与参考答案进行对比评估。评估过程采用标准化的NDCG@10作为核心指标，同时结合多项辅助指标进行全面分析。数据集支持通过HuggingFace平台直接获取，为相关研究提供了便捷的基准测试环境。

背景与挑战

背景概述

自然语言到数据库查询转换是人工智能领域的重要研究方向，旨在降低非技术用户的数据检索门槛。由MongoDB公司研究员Ben Perlmutter于2025年创建的Natural Language to Atlas Search数据集，聚焦于将自然语言查询转换为MongoDB Atlas搜索引擎代码的核心问题。该数据集通过构建153组自然语言问题与Atlas Search代码的配对样本，采用Simple English Wikipedia作为基准数据库，为评估大语言模型在专业数据库查询生成任务上的性能提供了标准化测试平台。该研究通过系统化评估揭示了前沿模型在专业代码生成能力上的差异，对推动自然语言交互式数据库系统的发展具有重要参考价值。

当前挑战

该数据集面临双重挑战：在领域问题层面，自然语言到Atlas Search查询转换需要模型精准理解模糊的自然语言意图，并生成符合复杂语法规则的专业搜索引擎代码，涉及查询结构嵌套、操作符选择等多维度技术难点；在构建过程中，数据集生成面临合成数据质量控制的挑战，需要确保自动生成的查询代码既符合语法规范又能准确反映自然语言语义。此外，评估框架的设计需平衡执行成功率与搜索结果相关性，而不同模型对系统提示词的敏感度差异进一步增加了标准化评估的复杂度。

常用场景

经典使用场景

在数据库查询智能化领域，该数据集主要应用于评估大型语言模型将自然语言查询转换为可执行的Atlas Search代码的能力。通过构建153组自然语言问题与Atlas Search代码的配对样本，研究人员能够系统测试模型在理解用户查询意图后生成准确数据库搜索语句的表现。这种评估方式特别关注模型对MongoDB特定搜索语法的掌握程度，为自然语言到专业查询语言的转换研究提供了标准化测试环境。

实际应用

在实际应用层面，该数据集支撑的评估体系直接服务于企业级数据库产品的智能化开发。基于其构建的基准测试能够指导开发者为MongoDB Atlas等云数据库平台设计更高效的自然语言查询接口。通过识别各模型在生成搜索查询时的性能差异，企业可据此优化其AI助手产品的查询准确率，显著降低非技术用户使用专业数据库系统的门槛。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在提示工程优化与模型能力评估两大方向。研究团队通过设计基础、中等和最大化三种系统提示策略，深入探索了不同提示方式对模型性能的影响规律。同时，该数据集催生的性能对比分析为后续研究提供了重要参考，特别是关于前沿模型与轻量级模型在专业任务表现差异的实证研究，为领域内模型选型提供了数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集