Text2Gremlin

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/Lriver/Text2Gremlin

下载链接

链接失效反馈

官方服务：

资源简介：

Text2Gremlin是一个双语数据集，旨在将自然语言描述的图数据库请求翻译为Gremlin查询语言。数据通过针对Apache HugeGraph风格图模式的Gremlin抽象语法树（AST）/模板泛化以及场景迁移工作流生成。数据集包含两个主要配置：监督微调（SFT）分割和偏好对齐分割。SFT分割包含26,852条经过场景迁移的自然语言样本及其对应的Gremlin查询，专门用于监督学习，过滤了9,384条机器翻译的中间数据行，每条数据包含稳定行ID、自然语言用户请求、目标Gremlin查询、场景/领域标签、CRUD操作类型、生成语言风格标签和数据来源标签。偏好对齐分割包含8,920条用于模型偏好对齐的生产偏好数据，根据任务复杂度进行偏好选择：复杂多步骤任务偏好使用Groovy风格的代码，简单场景偏好直接的Gremlin查询，每条数据包含任务ID、偏好任务类型、场景标签、自然语言任务、被选中的偏好代码及其风格、被拒绝的代码及其风格、偏好原因、源子查询和来源标签。数据集适用于文本生成、问答等任务，特别是图数据库查询的代码生成场景。

创建时间：

2026-05-27

原始信息汇总

数据集概述

Text2Gremlin 是一个中英双语数据集，旨在将自然语言的图数据库查询请求转换为 Gremlin 查询语句。该数据集基于 Gremlin AST/模板泛化及场景迁移工作流生成，适用于 Apache HugeGraph 风格的图模式。

数据集配置

1. `sft`（监督微调配置）

行数：26,852
文件：data/sft/train.jsonl
内容：仅包含场景迁移后的自然语言样本，已排除 9,384 行机器翻译的中间数据。
列字段：
- id：稳定行 ID
- instruction：自然语言用户请求
- query：目标 Gremlin 查询
- domain：场景/领域标签
- operation：CRUD 类别（read、create、update、delete）
- language_style：生成语言风格标签
- source：来源标签

2. `preference_alignment`（偏好对齐配置）

行数：8,920
文件：data/preference_alignment/train.jsonl
内容：用于模型偏好对齐的偏好数据。根据任务复杂度，复杂多步任务偏好 Groovy 风格代码，简单场景偏好直接 Gremlin。
列字段：
- id：任务 ID
- task_type：偏好任务类型（A、B、C）
- domain：场景/领域标签
- instruction：自然语言任务
- chosen：优选代码
- chosen_style：优选代码风格
- rejected：次选代码
- rejected_style：次选代码风格
- preference_reason：偏好原因（可能为空）
- source_queries：合成多任务示例使用的源子查询
- source：来源标签

统计信息

SFT 操作分布

操作类型	行数
`read`	11,714
`create`	5,269
`delete`	5,144
`update`	4,725

偏好对齐任务类型分布

任务类型	行数
`A`	4,380
`B`	2,318
`C`	2,222

注意事项

SFT 分片并非完整的中间合并文件，已过滤掉机器翻译行。
偏好对齐分片是独立的训练信号，与监督 Text2Gremlin 样本不同。
部分偏好示例中，若本地源无原因信息，preference_reason 列表为空。

许可证

Apache-2.0

搜集汇总

数据集介绍

构建方式

Text2Gremlin数据集旨在弥合自然语言与图数据库查询语言Gremlin之间的语义鸿沟，其构建依托于Gremlin抽象语法树与模板泛化技术，结合面向Apache HugeGraph图模型的场景迁移工作流。该过程从结构化模板出发，通过规则化迁移生成自然语言样本，并刻意排除了中间环节的机器翻译数据，仅保留经过场景迁移的高质量双语请求与对应查询，确保了监督微调子集的语言自然度与领域准确性。偏好对齐子集则依据任务复杂度进行差异化构建：对于复杂多步操作，优先采用Groovy风格代码；对于简单场景，则直接使用标准Gremlin，从而生产出用于模型偏好学习的偏好对数据。

使用方法

Text2Gremlin可直接用于图数据库查询语句的生成任务，尤其在Apache HugeGraph生态中极具实用价值。SFT子集适用于对模型进行指令微调，输入为自然语言指令，输出为对应的Gremlin查询代码，训练时可采用标准序列到序列的生成范式。偏好对齐子集则可用于基于人类偏好的强化学习或对比学习训练，其中‘chosen’与‘rejected’字段构成正负样本对，帮助模型学习在不同复杂度场景下选择合适的代码风格。数据以JSONL格式存储，兼容主流深度学习框架的数据加载方式。

背景与挑战

背景概述

在大规模图数据库管理系统中，自然语言到图查询语言的自动转换是降低用户使用门槛、提升数据交互效率的重要研究方向。Text2Gremlin数据集由Apache HugeGraph社区于近年来创建，旨在解决从自然语言请求到Gremlin查询语句的跨语言生成问题。该数据集通过Gremlin抽象语法树（AST）模板泛化与场景迁移工作流自动生成，涵盖了中英双语环境下的图数据库查询场景。其核心研究问题聚焦于如何高效、准确地理解用户意图并转换为可执行的图查询代码，对推动图数据库自然语言接口的标准化与模型训练具有重要影响力。数据集包含监督微调（sft）与偏好对齐（preference_alignment）两部分，共提供超过35,000条实例，为文本到代码生成任务提供了高质量的标注资源。

当前挑战

Text2Gremlin数据集面临的核心挑战包括：其一，图数据库查询语言Gremlin本身具有高度结构化与多范式特性，自然语言表述的模糊性与多样性使得精确映射至正确查询语法困难重重，尤其在涉及复杂多步操作时，模型需同时理解图遍历逻辑与语言意图；其二，数据集构建过程中，尽管采用了AST模板与场景迁移技术以减少人工标注成本，但机器翻译引入的噪声数据需通过精心设计的过滤流程剔除，同时还需平衡不同CRUD操作类型与任务复杂度下的样本分布，确保训练数据在读取、创建、更新、删除等操作上的覆盖均衡性；此外，偏好对齐部分需区分简单与复杂任务的代码风格偏好，这增加了数据标注与质量控制的难度，要求在不同任务类型间建立清晰且一致的偏好标准。

常用场景

经典使用场景

Text2Gremlin数据集的核心应用在于将自然语言描述的图数据库查询需求，精准地转化为Gremlin查询语句。这一过程通常基于监督微调（SFT）范式展开，研究人员利用其包含26,852条样本的训练集，涵盖读取、创建、更新、删除等CRUD操作，引导模型从用户指令中理解图拓扑结构、属性约束与路径遍历逻辑，最终生成语义等价的代码。该数据集的双语特性（中文与英文）使其在跨语言代码生成研究中独具价值，尤其适用于训练能够理解中文业务术语并输出标准Gremlin语法的模型，为图数据库的智能化交互奠定了数据基础。

解决学术问题

在学术研究层面，Text2Gremlin直面自然语言到图查询语言的跨模态翻译难题，填补了图数据库领域中结构化查询自动生成的标注数据空白。该数据集通过模板泛化与场景迁移技术，系统地解决了传统机器翻译数据在语法多样性与场景覆盖上的局限性，使得模型能够泛化至未见过的图模式与查询复杂度。它还为偏好对齐研究提供了独特的实验平台：其中的偏好对齐子集通过区分复杂多步任务（偏好Groovy风格）与简单场景（偏好直接Gremlin），推动了代码风格选择与任务难度自适应融合的探索，这对提升生成代码的可读性与执行效率具有深远学术意义。

实际应用

实际应用中，Text2Gremlin赋能多种图数据库交互场景，尤其在企业级知识图谱分析与社交媒体关系挖掘中发挥关键作用。例如，数据分析师或业务人员无需掌握Gremlin语法，即可通过自然语言提问（如“查询与用户A共同关注了超10个话题的所有用户”），由模型自动转化为高效查询语句并在HugeGraph等引擎上执行。该数据集还支持智能客服系统中的图数据检索、金融风控中的异常关系链路挖掘，以及电商平台的用户行为路径分析，极大地降低了非技术用户使用图数据库的门槛，提升了数据探索的敏捷性与人机协作效率。

数据集最近研究