TrioBench

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/iwei0/TrioBench

下载链接

链接失效反馈

官方服务：

资源简介：

TrioBench 是一个用于评估大型语言模型（LLMs）作为混合查询规划器的基准数据集，基于 Yelp 开放数据集构建。该数据集覆盖三种数据库引擎：SQLite（结构化事实与聚合）、Milvus（语义文本/图像检索）和 Neo4j（图约束与多跳推理）。数据集包含 341 个自然语言问题，每个问题由 5 种不同的 LLM（Claude、GPT、Gemini、DeepSeek 和 Qwen）处理，共产生 1,705 个完整输出。数据集分为两个配置：questions（341 行，包含每个问题的自然语言描述、难度评估、查询类型和计划步骤数等信息）和 all_models（1,705 行，包含每个问题和模型对的详细输出，如可执行的 JSON 计划、完整的 Python 程序等）。该数据集适用于文本生成、问答、SQL、向量搜索、知识图谱和多模态检索等任务，可用于 LLM 评估、代码生成和查询规划等场景。数据集发布在 CC-BY-4.0 许可下，但底层 Yelp 数据仍受 Yelp 数据集许可约束。

TrioBench is a benchmark dataset for evaluating large language models (LLMs) as hybrid query planners, built on the Yelp Open Dataset. It covers three database engines: SQLite (structured facts and aggregation), Milvus (semantic text/image retrieval), and Neo4j (graph constraints and multi-hop reasoning). The dataset contains 341 natural language questions, each processed by 5 different LLMs (Claude, GPT, Gemini, DeepSeek, and Qwen), resulting in 1,705 complete outputs. The dataset is divided into two configurations: questions (341 rows, containing natural language descriptions of each question, difficulty assessments, query types, and the number of planning steps, etc.) and all_models (1,705 rows, containing detailed outputs for each question and model pair, such as executable JSON plans, complete Python programs, etc.). The dataset is suitable for tasks such as text generation, question answering, SQL, vector search, knowledge graphs, and multimodal retrieval, and can be used for LLM evaluation, code generation, and query planning scenarios. The dataset is released under the CC-BY-4.0 license, but the underlying Yelp data remains subject to the Yelp Dataset license.

创建时间：

2026-05-07

原始信息汇总

TrioBench 数据集概述

基本信息

名称: TrioBench
语言: 英文
许可证: CC-BY-4.0（底层Yelp数据受Yelp Dataset License约束）
数据集大小: 1K < n < 10K
任务类型: 文本生成、问答
标签: SQL、向量搜索、知识图谱、跨模态检索、Yelp、基准测试、LLM评估、代码生成、查询规划

数据集描述

TrioBench用于评估大语言模型作为混合查询规划器的能力，涵盖三种数据库引擎——SQLite（结构化事实与聚合）、Milvus（语义文本/图像检索）和Neo4j（图约束与多跳推理）——基于Yelp开放数据集。给定自然语言问题，规划器需要协调三种检索方式，生成两个产物：（1）可执行的多步骤JSON计划，（2）完整的可执行端到端Python程序。

数据集结构

数据集包含两个配置，每个配置存储为单个Parquet文件。

1. `questions` — 341行

每行对应一个自然语言问题，包含每个模型独立的难度评估、查询类型、计划步数，以及多数投票共识。

列名	类型	描述
`question_id`	int32	1索引（1–341）
`natural_question`	string	英文自然语言问题
`difficulty_claude`	string	easy / medium / hard
`difficulty_gpt`	string
`difficulty_gemini`	string
`difficulty_qwen`	string
`difficulty_deepseek`	string
`query_types_claude`	string	JSON数组：["sql", "vector", "graph"]
`query_types_gpt`	string
`query_types_gemini`	string
`query_types_qwen`	string
`query_types_deepseek`	string
`num_plan_steps_claude`	int32	模型计划的执行步数
`num_plan_steps_gpt`	int32
`num_plan_steps_gemini`	int32
`num_plan_steps_qwen`	int32
`num_plan_steps_deepseek`	int32
`difficulty_consensus`	string	5个模型的多数投票结果
`difficulty_agreement`	int32	达成一致的模型数量（3、4或5）

2. `all_models` — 1,705行（341 × 5）

每行对应一个（问题，模型）对，按question_id和model_name排序。

列名	类型	描述
`question_id`	int32	1–341
`model_name`	string	claude / gpt / gemini / qwen / deepseek
`natural_question`	string	问题文本
`difficulty`	string	模型分配的难度
`query_types`	string	JSON数组（标准化为sql/vector/graph）
`num_plan_steps`	int32	计划步数
`plan_json`	string	JSON计划步骤对象数组
`complete_code`	string	完整的可执行Python程序
`analysis`	string	模型的推理文本

每个plan_json中的计划步骤结构如下： json { "step": 1, "parameters": { "ms_names": ["table/collection"], "filter_condition": {...} }, "result_var": "variable_name", "description": { "narrative": "what this step does", "example_query": "executable SQL / Cypher / vector search expression" } }

快速统计

341个问题，覆盖3个难度级别和3种引擎组合模式。

难度分布（每个模型的独立评估）：

难度	Claude	GPT	Gemini	Qwen	DeepSeek	共识
hard	189	121	118	119	89	124
medium	136	211	209	217	250	213
easy	16	9	14	5	2	4

共识一致性：

5/5模型一致：130个问题
4/5模型一致：120个问题
3/5模型一致：91个问题

使用示例

python from datasets import load_dataset

加载带有每个模型标签的问题

questions = load_dataset("iwei0/TrioBench", "questions", split="train")

加载所有模型输出

all_models = load_dataset("iwei0/TrioBench", "all_models", split="train")

按模型筛选

claude = all_models.filter(lambda x: x["model_name"] == "claude")

比较问题2的所有5个模型

q2 = all_models.filter(lambda x: x["question_id"] == 2)

局限性

每个行的错误标签未包含在内；基准的错误分类分析是手动进行的
complete_code包含硬编码的Windows路径（例如D:/Yelp-JSON/db/sqlite3/business.db），需要根据环境调整
部分GPT和DeepSeek的analysis字段包含中文文本

引用

bibtex @dataset{triobench, title = {TrioBench: A Cross-Database × Cross-Modal Retrieval Planning Benchmark}, year = {2025}, url = {https://github.com/AgentCombo/TrioBench-dev}, note = {341 questions, 5 LLM outputs, SQLite + Milvus + Neo4j on Yelp Open Dataset} }

搜集汇总

数据集介绍

构建方式

TrioBench的构建始于对Yelp开放数据集的深度挖掘。研究者设计了一套自动化与人工校验相结合的流程，首先基于Yelp数据构建了三个独立的数据库引擎实例：SQLite用于存储结构化事实与聚合查询，Milvus负责语义文本与图像检索，Neo4j则承载图约束与多跳推理。随后，围绕这些引擎生成了341条涵盖不同难度与查询组合的自然语言问题。每条问题被分别提交给Claude、GPT、Gemini、DeepSeek与Qwen五个大型语言模型，要求其生成可执行的多步骤JSON计划与完整的Python程序，最终收集了1705条模型输出记录。

使用方法

借助HuggingFace datasets库，用户可通过一行代码便捷加载数据。例如，使用`load_dataset('iwei0/TrioBench', 'questions', split='train')`获取问题主表，通过`load_dataset('iwei0/TrioBench', 'all_models', split='train')`获取所有模型输出。利用filter方法可按模型名称或问题ID进行筛选，实现跨模型对比。每条输出中的plan_json字段存储了结构化的规划步骤，可解析为Python字典以分析模型的规划逻辑；complete_code字段则提供了可直接运行的Python程序，仅在适配本地数据库路径后即可复现完整评估流程。

背景与挑战

背景概述

TrioBench 是一个于 2025 年发布的多数据库混合查询规划基准数据集，由研究团队基于 Yelp 开放数据集构建，旨在评估大语言模型（LLM）在整合结构化、语义和图结构信息时的规划能力。该数据集的核心研究问题在于探索 LLM 能否同时驾驭 SQLite（结构化事实与聚合）、Milvus（语义文本/图像检索）和 Neo4j（图约束与多跳推理）三种异构引擎，生成可执行的多步 JSON 计划及完整 Python 程序。通过向 Claude、GPT、Gemini、DeepSeek 和 Qwen 五款主流模型提交 341 道自然语言问题，TrioBench 系统性地比较了跨模型性能，为难检索规划领域提供了重要的评估基准，推动了多模态与跨数据库智能交互的研究前沿。

当前挑战

TrioBench 首要解决的领域问题是大语言模型在混合查询规划中的异构引擎协同挑战，即如何将自然语言需求准确分解为结构化、语义和逻辑推理子任务，并编排顺序执行。具体挑战包括：多引擎查询类型组合（SQL、向量和图检索）的自动识别与步骤划分、规划逻辑的跨一致性（如从 JSON 计划到可执行代码的无缝转换）、以及模型对复杂多步计划自评估的准确性（五款模型对 341 道题的难度共识仅 130 道达成完全一致）。构建过程中，挑战源于 Yelp 数据集的多模态标注整合、数据库模式设计的兼容性（如 Milvus 与 Neo4j 的异构接口）、以及硬编码文件路径与部分模型输出含中文文本等实际部署问题，凸显了跨模态基准创建的复杂性与资源依赖性。

常用场景

经典使用场景

在智能检索与多模态数据融合的时代，如何让大语言模型驾驭结构化数据库、向量语义库与知识图谱这三大各异的数据引擎，成为研究的前沿课题。TrioBench数据集应运而生，它基于Yelp真实商业数据，构建了341道精心设计的自然语言查询问题，并将这些问题分别送入Claude、GPT、Gemini、DeepSeek和Qwen五大主流语言模型，汇聚成1,705组完整输出。该数据集的经典使用场景是评估语言模型作为混合查询规划器的能力，即给定一个自然语言问题，模型需生成一个可执行的多步骤JSON计划，以及一个端到端的Python程序，从而实现对SQLite、Milvus和Neo4j三引擎的有序调度。

解决学术问题

学术研究中，大语言模型在单引擎查询任务上已展现出非凡潜力，但面对需要跨引擎协同的复杂查询规划时，其能力边界尚不清晰。TrioBench系统性地解决了这一问题，它首次为跨数据库、跨模态的检索规划提供了标准化基准，涵盖简单、中等、困难三个难度层级，并记录了每位模型对问题的难度判别与查询类型标注。通过设置多模型一致性投票机制和计划步骤计数，该数据集揭示了当前语言模型在融合结构化事实、语义向量和图约束推理时的薄弱环节，为评估混合查询规划能力提供了可重复、可对比的学术范本，深刻推动了多引擎协作智能的发展。

实际应用

在实际应用层面，TrioBench模拟了现代商业智能系统的核心挑战——用户只需用自然语言发问，系统便可自动调度数据库引擎与检索算法。例如，对于“请找出评分高于4星且位于纽约的泰国餐厅，并根据评论内容推荐氛围温暖的店铺，同时找出这类店铺的关联老板”，模型需要依次执行SQL聚合查询、向量语义检索和图路径探询。这样的能力直接赋能于智能客服、企业数据中台、电商推荐系统等场景，使非技术用户得以跨越技术壁垒，通过自然语言直接操控复杂的企业级数据资产，极大地提升了数据获取与决策支持的效率。

数据集最近研究