ibm-research/MermaidSeqBench
收藏Hugging Face2026-05-06 更新2025-10-18 收录
下载链接:
https://hf-mirror.com/datasets/ibm-research/MermaidSeqBench
下载链接
链接失效反馈官方服务:
资源简介:
MermaidSeqBench数据集是一个经过人工验证的基准数据集,用于评估大型语言模型(LLM)在根据自然语言提示生成Mermaid序列图方面的能力。数据集由大型语言模型(LLM)合成生成,从领域专家提供的一小部分种子示例开始。所有输出都经过人工标注者的手动验证和校正,以确保有效性和质量。该数据集包含132个样本,每个样本包括任务标题、任务详细描述、输入提示和预期的Mermaid图代码。
The MermaidSeqBench dataset is a human-verified benchmark for assessing large language models (LLMs) on their ability to generate Mermaid sequence diagrams from natural language prompts. The dataset was synthetically generated using large language models (LLMs), starting from a small set of seed examples provided by a subject-matter expert. All outputs were subsequently manually verified and corrected by human annotators to ensure validity and quality. The dataset consists of 132 samples, each containing task title, detailed natural language description of the task, instructional natural language prompt, and the expected Mermaid diagram code.
提供机构:
ibm-research
搜集汇总
数据集介绍

构建方式
MermaidSeqBench是一个经人工验证的基准测试数据集,旨在评估大语言模型从自然语言提示生成Mermaid序列图的能力。该数据集依托少量领域专家提供的种子示例,借助大语言模型合成生成初始样本,随后由人工标注员逐一核查与修正,以确保每一条数据的有效性与高质量。整个构建过程融合了自动生成与人工精校,最终形成包含132个样本的精选测试集。每个样本均包含任务标题、详细自然语言描述、完整的指令性输入提示以及对应的目标Mermaid图代码,结构清晰且富有规范性。
使用方法
该数据集多用做基准测试工具:研究者可直接将其作为评估集,对比各模型在生成合法Mermaid序列图上的表现。使用时,将input_prompt字段中的指令性自然语言描述输入目标大语言模型,将其输出与expected_output字段中的标准Mermaid代码进行比对,并借助配套GitHub仓库提供的评价流程与六项评分标准进行量化打分。同时,该数据集也适合用于指令微调场景,作为高质量样本帮助模型更好地捕获从文本到结构化图式的转换逻辑。
背景与挑战
背景概述
在软件工程领域,通过自然语言描述自动生成结构化图表是降低设计文档编写门槛、提升沟通效率的关键技术之一。MermaidSeqBench数据集由Basel Shbita、Farhan Ahmed和Chad DeLuca于2025年创建,旨在系统评估大型语言模型(LLMs)从自然语言生成Mermaid序列图的能力。该数据集包含132个人工验证的样本,每条样本均由领域专家提供种子示例、经LLM合成后由人工校正,确保高质量与准确性。作为首个专注于序列图生成的基准,MermaidSeqBench填补了自然语言到结构化图表生成评估的空白,为后续指令微调与模型比较提供了标准化测试集。
当前挑战
当前数据集面临的挑战体现在两个层面。领域层面,自然语言到序列图的转换要求模型同时理解语义逻辑与图形语法,但现有的LLM在生成格式严格的Mermaid代码时经常出现语法错误、逻辑缺失或激活处理不当,缺乏专门衡量此类结构化生成能力的评测标准。构建层面,受限于仅含132个样本的小规模、仅覆盖序列图类型的单一任务范围,以及种子数据源自LLM可能隐含的生成偏差,这些因素共同制约了基准的泛化性与代表性。此外,当前采用LLM裁判进行自动评分的方式依赖于评判模型本身的稳定性与提示词的设计,评价结果的一致性仍有待进一步验证。
常用场景
经典使用场景
MermaidSeqBench作为一项经人工校验的基准测试,旨在评估大语言模型从自然语言描述生成Mermaid时序图的准确性与完整性。其经典使用场景聚焦于模型对结构化图式代码的输出能力,用户向模型提供一段详尽的自然语言任务指令,模型需生成对应的Mermaid序列图代码。该数据集通过标准化的提示模板和人工校正的期望输出,为不同规模、不同架构的语言模型提供了公平、可复现的评测基础,尤其适用于对比模型在代码生成任务中对于逻辑流程、语法规范与语义一致性的把握程度。
解决学术问题
该数据集针对自然语言到可视化工具体系(如Mermaid图)自动生成的学术难题,填补了序列图这一特定图类型缺乏高质量标准化评测资源的空白。研究领域长期面临模型生成的代码是否能在语法正确、逻辑严密、状态跟踪完整等多个维度达到可用标准的挑战。MermaidSeqBench通过多维度的细粒度评分体系(包括语法、仅含Mermaid代码、逻辑、完整性、激活处理、错误与状态追踪)以及双评判模型交叉验证策略,使研究者能够量化不同模型在技术规范遵守与图意表达上的差距,从而推动代码智能化生成算法在软件工程文档化任务中的理论发展。
实际应用
在实际软件开发与系统工程领域中,MermaidSeqBench可被用作评估和筛选适合辅助撰写技术文档的对话式AI工具。团队可利用该基准验证模型在面对复杂交互流程描述时,能否自动生成精确的时序图,从而减轻开发者手动绘制UML图的负担。此外,该基准也适用于工业级大模型的指令微调质量检验,帮助企业选择或定制能稳定输出符合Mermaid语法的文本生成引擎,以自动化生成会议纪要、需求文档中的协作流程图示,提升跨职能沟通的效率。
数据集最近研究
最新研究方向
在代码生成与可视化建模的交叉领域中,MermaidSeqBench的诞生为大型语言模型的结构化输出能力评估树立了新的标杆。该基准专注于自然语言到Mermaid时序图的转换任务,通过人工校验的132个高质量样本,精准衡量模型在语法正确性、逻辑完备性及异常处理等多维度的表现。当前研究前沿已聚焦于探索Qwen系列及Llama等主流模型在此类图示生成任务中的性能差异,其中Qwen 2.5-72B-Instruct以83.94的综合得分暂居榜首,揭示了模型规模与领域专精之间的权衡。更深远的意义在于,该基准推动了LLM在软件工程可视化文档自动化生成方向的应用,为提升开发者从自然语言需求到可执行架构图的转化效率提供了可靠的评估框架与优化方向。
以上内容由遇见数据集搜集并总结生成



