cleaned-mongosh-instructions

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/kylemesh19/cleaned-mongosh-instructions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Schema、提示语(prompts)、查询(query)和对话(conversations)信息，对话又包括对话来源(from)和对话内容(value)。数据集分为训练集、测试集和验证集，共包含196个训练样本，22个测试和验证样本。数据集总大小约为1.05MB，下载大小约为188KB。

This dataset contains Schema, prompts, queries, and conversational information. The conversations include the conversation source (labeled as "from") and the conversation content (labeled as "value"). The dataset is divided into three subsets: training set, test set, and validation set. It consists of 196 training samples, 22 test samples, and 22 validation samples. The total size of the dataset is approximately 1.05 MB, with a download size of about 188 KB.

创建时间：

2025-06-21

原始信息汇总

数据集概述

基本信息

数据集名称: cleaned-mongosh-instructions
存储位置: https://huggingface.co/datasets/kylemesh19/cleaned-mongosh-instructions

数据集结构

特征

Schema: 字符串类型
prompts: 字符串类型
query: 字符串类型
conversations: 列表类型，包含以下子特征：
- from: 字符串类型
- value: 字符串类型

数据划分

train:
- 字节数: 950580.9245742093
- 样本数: 196
test:
- 字节数: 53348.92944038929
- 样本数: 11
validation:
- 字节数: 53348.92944038929
- 样本数: 11

数据规模

下载大小: 188449 字节
数据集总大小: 1057278.783454988 字节

配置文件

默认配置名称: default
数据文件路径:
- train: data/train-*
- test: data/test-*
- validation: data/validation-*

搜集汇总

数据集介绍

构建方式

在数据库交互领域，cleaned-mongosh-instructions数据集的构建采用了结构化数据采集方法，通过提取MongoDB Shell操作场景中的典型指令模式。数据集包含196个训练样本和22个验证测试样本，每个样本均包含Schema结构描述、自然语言提示词、查询语句以及多轮对话记录，对话节点精确标注了发言角色和内容文本。数据经过专业清洗和标准化处理，确保指令与查询语句的语义一致性。

特点

该数据集最显著的特征在于其多维度的数据库操作表示能力，Schema字段完整保留了MongoDB集合结构定义，prompts与query形成自然语言到查询语言的映射对。conversations字段采用列表结构存储对话流，真实模拟开发者与数据库的交互过程。数据划分严格遵循机器学习标准，训练集与验证测试集的比例为8:1:1，且各分片数据分布均衡。

使用方法

使用者可通过加载标准数据集分片快速构建MongoDB操作模型，训练集适用于指令理解模型的预训练，验证测试集可用于评估模型在查询生成和对话管理方面的性能。数据中的Schema字段可作为约束条件增强查询语句生成的准确性，而多轮对话记录则为构建交互式数据库助手提供了丰富的上下文学习样本。建议采用序列到序列架构处理prompts到query的转换任务。

背景与挑战

背景概述

cleaned-mongosh-instructions数据集是针对MongoDB Shell（mongosh）操作指令优化与理解而构建的专业语料库。随着NoSQL数据库的广泛应用，MongoDB作为文档型数据库的代表，其交互式命令行工具mongosh的复杂指令体系成为开发者学习的关键难点。该数据集由专业团队系统化整理，通过结构化字段（Schema、prompts、query等）和对话式记录（conversations），为自然语言处理与数据库操作间的语义映射研究提供了高质量标注资源。其核心价值在于促进数据库操作指令的智能化解析，对提升开发者体验和数据库教育工具开发具有显著意义。

当前挑战

该数据集需解决数据库指令自然语言交互中的多重挑战：领域专业术语的歧义消除要求精确的Schema描述，用户查询意图与mongosh语法间的复杂转换依赖高质量的prompt设计。构建过程中，对话数据的多轮交互特性导致标注复杂度陡增，需平衡指令的完整性与数据冗余度；同时，验证集较小的规模（仅11例）可能影响模型泛化能力的评估。这些挑战直接关系到基于该数据集训练的模型在实际数据库操作场景中的可靠性。

常用场景

经典使用场景

在数据库查询语言研究领域，cleaned-mongosh-instructions数据集以其结构化的查询指令和对话记录，为自然语言到MongoDB查询语言的转换研究提供了重要素材。该数据集通过Schema、prompts、query和conversations等字段，完整记录了用户查询意图与数据库响应的交互过程，成为测试语义解析模型的基准工具。研究者可基于该数据集构建端到端的NL2Query模型，验证其在跨领域数据库查询中的泛化能力。

衍生相关工作

围绕该数据集衍生的经典研究包括：基于注意力机制的MongoDB语法树生成模型、支持多意图识别的对话状态跟踪框架、以及结合强化学习的查询结果反馈优化系统。部分成果已被Apache开源项目MongoDB Atlas集成，形成了从学术研究到工业落地的完整闭环。后续工作进一步扩展了跨数据库平台的迁移学习方案，验证了该数据集在SQL转换等衍生任务中的迁移价值。

数据集最近研究