STARK

Name: STARK
Creator: 斯坦福大学计算机科学系
Published: 2024-05-21 03:10:35
License: 暂无描述

arXiv2024-05-21 更新2024-06-21 收录

下载链接：

https://github.com/snap-stanford/stark

下载链接

链接失效反馈

官方服务：

资源简介：

STARK是一个大规模的半结构化文本和关系知识库检索基准，由斯坦福大学计算机科学系开发。该基准包含三个数据集：产品搜索、学术论文搜索和精准医学查询，旨在评估大型语言模型在处理复杂查询时的性能。STARK通过设计新颖的流程合成真实用户查询，并结合其正确答案（项目），进行严格的人工评估以验证查询质量。此外，还增加了高质量的人工生成查询，以提供真实的参考。STARK为评估检索系统在半结构化知识库上的表现提供了一个全面的测试平台，揭示了当前检索和语言模型系统面临的挑战，并指出了构建更高效检索系统的需求。

STARK is a large-scale semi-structured text and relational knowledge base retrieval benchmark developed by the Department of Computer Science at Stanford University. This benchmark encompasses three datasets: product search, academic paper search, and precision medicine query tasks, aiming to evaluate the performance of large language models (LLMs) when processing complex queries. STARK synthesizes real-world user queries through a novel workflow, pairs each query with its corresponding correct answer items, and conducts rigorous human evaluation to verify the quality of the generated queries. Furthermore, high-quality human-generated queries are incorporated to provide authentic reference benchmarks. STARK serves as a comprehensive testbed for evaluating retrieval systems on semi-structured knowledge bases, revealing the challenges faced by current retrieval and language model systems and highlighting the urgent need for developing more efficient retrieval systems.

提供机构：

斯坦福大学计算机科学系

创建时间：

2024-04-20

搜集汇总

数据集介绍

构建方式

STARK数据集的构建采用了一种创新的自动化流水线，旨在模拟用户在真实场景中对半结构化知识库的查询行为。该流程首先基于专家知识设计关系模板，从知识图谱中采样满足特定关系约束的候选实体集合。随后，从选定的“黄金答案”实体文档中，利用大型语言模型提取符合特定角色（如顾客、研究人员）兴趣的文本属性。接着，通过两阶段的大型语言模型合成，将关系约束与文本属性融合，生成自然流畅且格式灵活的查询语句。最后，采用多模型验证机制，严格筛选出同时满足文本与关系约束的所有候选实体，构成精确的答案集合，确保了数据的高质量与准确性。

特点

STARK数据集的核心特点在于其查询的“半结构化”本质，即每个查询都深度融合了关系型约束与复杂的文本属性要求，精准模拟了现实世界中如电商搜索、学术检索和精准医疗咨询等复杂信息需求。数据集覆盖了亚马逊产品、学术论文和生物医学知识三大领域，体现了高度的领域多样性。其查询设计强调语境特异性推理能力，要求系统能够推断用户隐含兴趣、理解专业领域描述并进行多主体关系推导。此外，数据集包含了大规模合成查询与高质量人工生成查询，两者在自然性、多样性和实用性上均通过严格的人工评估验证，为评估检索系统提供了全面且富有挑战性的测试基准。

使用方法

STARK数据集主要用于评估基于大型语言模型的检索系统在半结构化知识库上的性能。使用者可将数据集按既定划分用于模型训练、验证与测试。评估时，系统需接收一个自然语言查询，并从给定的知识库（包含知识图谱结构和关联的文本文档集合）中检索出同时满足查询中关系约束与文本属性约束的所有实体节点。典型的评估方法包括向量相似性搜索、多向量搜索、稠密检索器以及结合大型语言模型的重排序策略等。关键评估指标涵盖Hit@k、Recall@k和平均倒数排名，旨在全面衡量系统在准确性、召回率及排序质量方面的表现。该数据集为推进复杂检索系统的研究提供了标准化的实验平台。

背景与挑战

背景概述

STARK（Semi-structured retrieval benchmark on Textual and Relational Knowledge Bases）是由斯坦福大学与亚马逊的研究团队于2024年联合推出的创新性基准数据集，旨在填补半结构化知识库检索领域的评估空白。该数据集聚焦于解决现实世界中复杂查询的检索难题，此类查询通常需要融合非结构化文本信息与结构化关系知识的协同推理。STARK构建了三个涵盖电子商务、学术论文搜索与精准医疗领域的知识库，通过自动化流水线合成大规模自然语言查询，并辅以人工生成查询作为真实参照。其核心研究在于推动大语言模型在私有化、多模态知识场景下的检索能力演进，为下一代智能检索系统的研发提供了关键性测试平台。

当前挑战

STARK所应对的核心领域挑战在于半结构化知识库的复杂检索任务，其要求系统同时解析查询中的文本语义约束与多跳关系逻辑，并实现千万级实体间的精准匹配。构建过程中的主要挑战体现在：第一，模拟真实用户查询的生成需协调文本属性与关系结构的相互依赖，避免语义冲突或逻辑歧义；第二，在百万级候选实体中自动化构建高精度真值答案集，需设计多阶段大语言模型验证机制以确保答案的完备性与一致性；第三，保持查询的自然性、多样性与实用性，需通过人工评估与合成策略的迭代优化，以平衡数据的规模与质量。

常用场景

经典使用场景

在信息检索领域，STARK数据集为评估大型语言模型在半结构化知识库上的检索能力提供了标准化测试平台。该数据集通过模拟真实用户查询，将文本描述与实体关系深度融合，构建了涵盖产品搜索、学术论文检索和精准医疗查询三大领域的复杂检索任务。其经典应用场景在于系统评估检索模型在理解自然语言查询、解析多模态知识以及执行多跳推理方面的综合性能，为学术界提供了衡量模型在真实世界复杂信息需求下表现的关键基准。

实际应用

在实际应用层面，STARK数据集直接服务于电子商务、学术搜索和医疗信息系统的智能化升级。例如，在电商平台中，它能够训练系统理解如“寻找与Radio Flyer品牌推车配套的儿童安全头盔”这类融合品牌、品类和文本描述的复杂查询；在医疗领域，可辅助医生快速检索“与PNPLA8基因相关且表现为肌张力减退的疾病”。这些应用显著提升了信息系统的交互自然性和答案准确性，对改善用户体验、支持精准决策具有重要价值。

衍生相关工作

STARK数据集催生了一系列围绕半结构化检索的创新研究。基于其构建的检索基准，学者们发展了如多向量相似性搜索、图神经网络增强检索以及大语言模型重排序等新型方法。相关工作进一步探索了检索系统在延迟与精度间的平衡、少样本场景下的适应能力以及私有知识库的安全检索等问题。这些衍生工作不仅深化了对半结构化检索机理的理解，也推动了检索系统与大型语言模型更紧密的结合，为下一代知识密集型应用的开发提供了技术储备。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集