snap-stanford/stark

Name: snap-stanford/stark
Creator: snap-stanford
Published: 2024-10-20 17:06:53
License: 暂无描述

Hugging Face2024-10-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/snap-stanford/stark

下载链接

链接失效反馈

官方服务：

资源简介：

STaRK是一个大规模半结构化检索基准，专注于文本和关系知识库的检索任务。数据集包含三个知识库：Amazon SKB（电子商务知识库）、MAG SKB（学术数据库）和Prime SKB（生物医学知识库）。每个知识库都有合成的和人工生成的查询集，用于评估模型在检索任务中的性能。合成的查询集模拟真实世界的用户请求，而人工生成的查询集则用于真实的基准测试和评估。数据集还包括通过自动和手动过滤精确验证的正确答案/节点。

提供机构：

snap-stanford

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 问答
语言: 英语
数据集名称: STaRK

配置详情

STaRK-Amazon
- 数据文件:
  - synthesized_all_split: qa/amazon/stark_qa/stark_qa.csv
  - humen_generated_eval: qa/amazon/stark_qa/stark_qa_human_generated_eval.csv
STaRK-MAG
- 数据文件:
  - synthesized_all_split: qa/mag/stark_qa/stark_qa.csv
  - humen_generated_eval: qa/mag/stark_qa/stark_qa_human_generated_eval.csv
STaRK-Prime
- 数据文件:
  - synthesized_all_split: qa/primekg/stark_qa/stark_qa.csv
  - humen_generated_eval: qa/primekg/stark_qa/stark_qa_human_generated_eval.csv

数据集特性

任务描述: 针对半结构化文本和关系知识库的大规模半结构检索基准。
知识库构建: 包括Amazon SKB（电子商务知识库）、MAG SKB（学术数据库）和Prime SKB（生物医学知识库）。
评估方法:
- 合成查询，模拟真实世界用户请求。
- 人工生成查询，用于真实基准和评估。
- 精确验证的地面真值答案/节点，通过自动和手动过滤。
数据集组成: 包含三个基于检索的问答数据集，每个数据集包含合成训练/验证/测试集，包含9k至14k查询，以及高质量的人工生成查询集。

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，STaRK数据集的构建体现了对半结构化知识库检索的系统性探索。该数据集依托三个大规模知识库——亚马逊电子商务知识库、MAG学术数据库以及Prime生物医学知识库，通过合成查询与人工生成查询相结合的方式构建。合成查询模拟真实用户请求，覆盖广泛场景；人工生成查询则确保评估的真实性。所有查询均经过自动与人工双重过滤，以精确验证答案节点的准确性，形成了包含数千至万余条查询的高质量训练、验证与测试集。

使用方法

针对基于大语言模型的知识库检索任务，STaRK数据集提供了标准化的评估框架。研究者可利用其合成查询集进行模型训练与验证，并通过人工生成的查询集进行最终性能测试。数据集支持从知识库中检索相关实体或答案节点，要求模型同时处理关系结构与文本信息。使用前需加载相应知识库配置，并依据提供的分割文件进行数据划分，以实现对检索系统在真实场景下泛化能力的严谨评估。

背景与挑战

背景概述

在人工智能与信息检索领域，如何从海量半结构化知识库中精准提取信息，一直是推动智能问答系统发展的核心议题。STaRK数据集由斯坦福大学SNAP研究团队于2024年创建，旨在构建一个大规模、多领域的半结构化知识库检索基准。该数据集聚焦于融合文本与关系型知识的复杂检索任务，通过整合亚马逊电商、学术文献及生物医学三大知识库，为评估大语言模型在真实场景下的检索能力提供了标准化测试平台。其设计不仅推动了跨模态信息检索技术的发展，也为知识增强型人工智能系统的构建奠定了重要数据基础。

当前挑战

STaRK数据集所针对的领域挑战在于，传统检索系统难以有效处理半结构化知识库中文本描述与实体关系的交织性，要求模型同时理解自然语言查询并遍历复杂关系图谱。在构建过程中，团队面临多重挑战：一是需平衡合成查询的规模与真实性，以模拟多样化的用户意图；二是确保人类标注查询在语言自然性和知识覆盖上的高质量；三是为海量实体与关系建立精确且一致的答案标注，这涉及自动化过滤与人工核查的双重校验，以维持数据集的可靠性与评估的严谨性。

常用场景

经典使用场景

在信息检索与知识图谱交叉领域，STaRK数据集为评估大型语言模型在半结构化知识库上的检索能力提供了标准测试平台。该数据集通过模拟真实用户查询，要求模型从融合了实体关系与丰富文本描述的知识库中精准定位答案，典型场景包括基于商品、学术文献或生物医学数据的复杂问答任务。其设计巧妙结合了关系型与文本型知识，使得模型必须在理解结构化关联的同时处理自然语言语义，从而全面检验检索系统的综合性能。

解决学术问题

STaRK数据集主要针对当前检索系统在异构知识融合方面的局限性，解决了如何统一评估模型对关系型与文本型知识联合检索效能的学术难题。它通过构建大规模、多领域的半结构化知识库，为研究者提供了衡量模型在真实世界复杂查询下表现的标准基准，显著推进了跨模态检索、知识增强问答以及大语言模型推理能力的研究进程，对提升知识密集型应用的可靠性具有深远影响。

实际应用

在实际应用层面，STaRK数据集能够直接赋能电子商务、学术搜索与生物医学信息检索等关键领域。例如，在电商平台中，系统可利用该数据集训练的模型，准确理解用户对商品属性、评价或关联推荐的复杂查询；在科研场景下，则有助于从海量学术文献中快速提取特定主题的关联研究成果或作者网络，大幅提升专业信息服务的效率与准确性。

数据集最近研究