SemBench

Name: SemBench
Creator: Cornell University, University of Technology Nuremberg, BIFOLD & TU Berlin, University of Michigan, MIT CSAIL, Vrije Universiteit Amsterdam, Google
Published: 2025-11-04 00:25:19
License: 暂无描述

arXiv2025-11-04 更新2025-11-06 收录

下载链接：

https://sembench.ngrok.io

下载链接

链接失效反馈

官方服务：

资源简介：

SemBench是一个针对语义查询处理引擎的基准测试，它引入了在三个关键维度上的多样性：场景、模态和操作符。包括从电影评论分析到医疗问答的各种场景。在这些场景中，涵盖了不同的数据模态，包括图像、音频和文本。最后，查询涉及一系列多样化的操作符，包括语义过滤器、连接、映射、排名和分类。SemBench的数据、查询和结果可以在https://sembench.ngrok.io上获取。

SemBench is a benchmark for semantic query processing engines, which introduces diversity across three critical dimensions: scenarios, modalities, and operators. It encompasses a wide array of scenarios spanning from movie review analysis to medical question answering. Within these scenarios, it covers diverse data modalities including images, audio, and text. Additionally, the queries incorporate a diverse set of operators, such as semantic filters, joins, mappings, ranking, and classification. The datasets, queries, and results of SemBench are publicly accessible at https://sembench.ngrok.io.

提供机构：

Cornell University, University of Technology Nuremberg, BIFOLD & TU Berlin, University of Michigan, MIT CSAIL, Vrije Universiteit Amsterdam, Google

创建时间：

2025-11-04

原始信息汇总

SemBench 数据集概述

数据集简介

SemBench 是一个系统性基准测试，旨在在现实环境中评估和比较最新的基于 LLM 的多模态数据系统。该基准测试包含明确定义的使用案例，这些案例将结构化数据（表格）与非结构化模态（文本、图像、音频）相结合，能够评估系统处理复杂语义查询并进行真实情况验证的能力。

核心特征

多模态集成：整合结构化数据（表格）与非结构化模态（文本、图像、音频）
多目标平衡：系统需在准确性、成本、效率之间进行权衡
真实场景评估：在现实环境中评估系统性能
大规模数据处理：特别关注处理大规模数据集时的性能表现

查询类型

语义操作符：包括语义过滤、语义连接、语义分类、语义评分、语义聚合
查询多样性：每个场景至少包含 10 个不同的查询
复杂度范围：从简单检索到需要跨多种数据类型和来源进行推理的复杂分析任务

评估维度

执行时间：系统处理查询所需时间
货币成本：查询执行产生的费用
质量指标：查询结果的准确性质量

扩展性

新增使用案例：实现特定场景的运行器和评估器
支持新系统：创建继承自 GenericRunner 的系统特定运行器
自定义指标：使用领域特定质量度量扩展评估框架
额外查询：以自然语言和 SQL 格式添加查询定义

应用场景

Animals（动物）
Movie（电影）
E-Commerce（电子商务）
Medical（医疗）
MMQA（多模态问答）

支持模型

Gemini 2.0 Flash
Gemini 2.5 Flash
GPT-4o Mini
GPT-4o Mini (5mini)

搜集汇总

数据集介绍

构建方式

SemBench基准测试的构建基于扩展关系数据模型，整合了文本、图像和音频等多模态数据。通过从Kaggle等平台选取带有手动标注的现有数据集，并辅以随机生成的元数据，构建了涵盖电影评论分析、野生动物监测、电子商务、医疗问答等五个典型场景的数据库。每个场景的查询设计均包含语义运算符与传统SQL操作的混合，确保了数据处理的复杂性和多样性。

使用方法

使用SemBench时，需在支持语义运算符的查询引擎中部署多模态数据库，并执行预定义的查询集合。评估过程需记录执行时间、货币成本及结果质量等指标，其中质量通过相对误差、F1分数等方法与真实结果对比。用户可通过调整并行度、模型选择等参数优化系统性能，并参考在线排行榜持续跟踪不同引擎的演进表现。

背景与挑战

背景概述

SemBench作为2025年发布的语义查询处理引擎基准测试框架，由康奈尔大学、柏林工业大学等学术机构与谷歌等工业界团队联合开发。该数据集针对基于大语言模型的多模态数据处理系统，通过扩展SQL语义运算符实现自然语言指令驱动的图像、音频和文本联合分析。其核心研究在于解决传统关系型数据库在处理非结构化数据时的语义理解瓶颈，为跨模态数据查询优化技术提供了标准化评估体系，对推动智能数据管理系统发展具有里程碑意义。

当前挑战

语义查询处理领域面临双重挑战：在技术层面需解决多模态数据联合查询的准确性优化问题，例如跨模态语义连接中视觉与听觉特征的对齐难题；在系统构建过程中，需克服大语言模型调用成本控制与结果随机性之间的平衡困境，如ThalamusDB系统通过近似查询处理降低计算开销时面临的精度损失。此外，医疗等专业领域数据的语义解析存在模型拒绝应答的特殊场景，要求系统具备动态提示词优化能力。

常用场景

经典使用场景

在语义查询处理系统评估领域，SemBench通过构建多模态数据场景（如电影评论分析、野生动物监测、电子商务产品识别等）来测试语义操作符的性能。这些场景模拟了真实环境中对文本、图像和音频数据的复杂查询需求，例如在电影评论场景中，系统需执行基于自然语言的情感过滤和分类操作，以验证语义操作符在跨模态数据处理中的有效性。

解决学术问题

SemBench解决了语义查询处理引擎在优化LLM调用成本和结果准确性方面的核心学术问题。传统数据库基准（如TPC-H）无法评估语义操作符带来的高计算开销和随机性输出，而该基准通过定义多样化查询和严格的质量指标（如F1分数、相对误差），推动了查询优化、成本最小化和精度保障等研究方向的发展，填补了多模态数据分析领域的评估空白。

实际应用

该基准在工业界和学术界的实际系统中得到广泛应用，例如谷歌BigQuery、LOTUS等系统通过SemBench验证其语义操作符在医疗诊断、电商推荐等场景的可行性。在医疗场景中，系统可结合X光图像和症状文本进行多模态疾病检测，为电子健康记录分析提供标准化测试框架，同时帮助优化云服务中LLM资源的调度效率。

数据集最近研究