five

SOCBench-D

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.19310v1
下载链接
链接失效反馈
官方服务:
资源简介:
SOCBench-D是一个用于评估服务发现中自然语言查询性能的基准数据集。该数据集包含11个行业领域,每个领域有5个服务,每个服务有10个端点,共550个查询。数据集通过使用LLM生成服务和端点,并利用另一个LLM创建查询来构建。此外,数据集还包含随机选择的一部分端点及其预期结果,用于评估查询的正确性。SOCBench-D旨在帮助研究人员和开发者评估和改进服务发现中的自然语言查询性能。

SOCBench-D is a benchmark dataset for evaluating the performance of natural language queries in service discovery. This dataset covers 11 industry domains, with 5 services per domain and 10 endpoints per service, totaling 550 queries. It is constructed by using an LLM to generate services and endpoints, and a second LLM to create the queries. Additionally, a randomly selected subset of endpoints along with their expected results is included to assess the correctness of the queries. SOCBench-D aims to help researchers and developers evaluate and improve the performance of natural language queries in service discovery.
提供机构:
University of Stuttgart, Stuttgart, Germany; Dipartimento di Ingegneria Informatica, Sapienza Università di Roma, Rome, Italy
创建时间:
2025-05-26
搜集汇总
数据集介绍
main_image_url
构建方式
SOCBench-D数据集的构建采用了系统化的方法,以确保其覆盖多个行业领域并具有高质量的数据。首先,基于全球行业分类标准(GICS),研究人员选择了11个主要行业领域,包括能源、材料、工业、医疗保健等。对于每个领域,利用大型语言模型(LLM)生成了5个服务,每个服务包含10个端点,并以OpenAPI规范的形式呈现。随后,通过LLM为每个领域生成了10个自然语言查询,每个查询对应一个随机的端点子集。为确保数据的准确性和一致性,研究人员对生成的OpenAPI进行了语法验证和语义检查,并通过嵌入模型设定了相似性阈值以避免查询间的歧义。最终,生成了5个基准实例,共计550个查询,确保了数据的多样性和广泛适用性。
特点
SOCBench-D数据集具有多领域覆盖、高质量数据和实用性强的特点。该数据集涵盖了11个主要行业领域,确保了其在服务发现任务中的广泛适用性。每个领域的服务及其端点均由LLM生成,并通过严格的验证流程确保其语法和语义的正确性。此外,数据集中的查询与端点的对应关系经过多次校验,避免了歧义和重复。SOCBench-D还通过生成多个基准实例,减少了随机性对结果的影响,使其成为评估检索增强生成(RAG)和服务发现方法的可靠基准。数据集的开放性和标准化格式进一步增强了其在研究和实践中的可用性。
使用方法
SOCBench-D数据集主要用于评估检索增强生成(RAG)和服务发现方法的性能。研究人员可以通过该数据集测试不同预处理策略(如分块方法)和嵌入模型在服务发现任务中的效果。具体使用时,首先将OpenAPI规范按照选定的分块策略进行处理,生成多个数据块并计算其嵌入向量。随后,通过自然语言查询检索相关数据块,并评估其召回率和精确率。此外,数据集还可用于验证LLM代理(如Discovery Agent)在服务发现中的表现,通过比较其与传统RAG方法的性能差异。SOCBench-D的标准化结构和丰富标注使其能够支持多种实验设计和性能度量,为服务计算领域的研究提供了重要工具。
背景与挑战
背景概述
SOCBench-D是由斯图加特大学和罗马萨皮恩扎大学的研究团队于2025年提出的服务发现基准数据集,旨在解决多领域服务组合中API端点检索的核心问题。该数据集基于全球行业分类标准(GICS)构建,覆盖能源、医疗、金融等11个核心领域,包含550个自然语言查询与预期端点的配对数据。作为首个面向检索增强生成(RAG)技术的服务发现评估框架,SOCBench-D通过结构化生成流程和双重验证机制(语法校验与语义审核),显著推进了基于OpenAPI规范的自动化系统集成研究。
当前挑战
该数据集主要面临三方面挑战:在领域问题层面,需解决大语言模型(LLM)输入令牌限制与服务文档完整性之间的冲突,要求精准提取API描述的关键信息;构建过程中需克服跨领域服务语义一致性验证的难题,通过迭代式LLM生成与嵌入模型相似度阈值控制确保查询无歧义;技术实现上需平衡检索精度(最高87%)与召回率(84%)的矛盾,Discovery Agent的严格过滤机制虽提升精度却导致部分相关端点丢失,揭示现有方法在复杂服务拓扑中的推理能力局限。
常用场景
经典使用场景
SOCBench-D数据集在服务发现领域具有广泛的应用价值,特别是在基于自然语言查询的端点检索场景中。该数据集通过模拟多个行业领域的服务端点,为研究者提供了一个标准化的测试环境,用于评估检索增强生成(RAG)技术在服务发现中的性能。其典型使用场景包括评估不同分块策略对端点检索准确性的影响,以及验证大语言模型(LLM)在服务组合中的实际效果。
实际应用
在实际应用层面,SOCBench-D数据集可广泛应用于企业服务集成、API管理和微服务架构优化等领域。例如,企业可利用该数据集评估不同服务发现方案在特定行业(如金融、医疗或信息技术)中的适用性。数据集还可用于训练和优化商业API推荐系统,帮助开发者快速定位所需的服务端点。此外,云服务提供商可基于该数据集开发更高效的端点检索工具,提升服务组合的自动化水平。
衍生相关工作
围绕SOCBench-D数据集已衍生出多项重要研究工作。其中包括基于该数据集提出的Discovery Agent架构,该架构通过LLM代理实现了端点的精准检索。数据集还启发了对OpenAPI分块策略的深入研究,如端点分块、JSON分块等方法的比较分析。此外,相关研究还探索了不同嵌入模型(如NVIDIA和OpenAI模型)在服务发现中的性能差异,为实际应用中的模型选择提供了指导。这些工作共同推动了服务发现技术向更高效、更智能的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作