SpecsQA

Name: SpecsQA
Creator: 三星人工智能华沙; 三星人工智能剑桥
Published: 2026-05-26 23:22:42
License: 暂无描述

arXiv2026-05-26 更新2026-05-28 收录

下载链接：

https://github.com/corneliocristina/DualGraphRAG

下载链接

链接失效反馈

官方服务：

资源简介：

SpecsQA是由三星人工智能研究团队构建的基准数据集，旨在评估半结构化文档上的问答系统性能。该数据集包含117个精心设计的问题，数据来源于2025年11月14日抓取的英国三星官方网站快照，涵盖26个产品类别的2162个网页，整合了自然语言描述与规格表格等多模态信息。其创建过程涉及网页爬取、结构化解析和人工问题标注，确保了数据的真实性与复杂性。该数据集主要应用于增强检索生成系统领域，专门解决在半结构化语料库中需要进行精确过滤、聚合及跨文档推理的复杂问答任务，弥补了现有基准在语料库级检索评估上的不足。

SpecsQA is a benchmark dataset developed by the Samsung AI Research team, designed to evaluate the performance of question answering (QA) systems on semi-structured documents. This dataset includes 117 meticulously crafted questions, with data originating from a snapshot of the official Samsung UK website crawled on November 14, 2025, covering 2,162 webpages across 26 product categories and integrating multimodal information such as natural language descriptions and specification tables. Its construction workflow encompasses web crawling, structured parsing, and manual question annotation, ensuring the authenticity and complexity of the dataset. This benchmark is primarily applied in the retrieval-augmented generation (RAG) domain, specifically targeting complex QA tasks that require precise filtering, aggregation, and cross-document reasoning within semi-structured corpora, thereby filling the gap in existing benchmarks for corpus-level retrieval evaluation.

提供机构：

三星人工智能华沙; 三星人工智能剑桥

创建时间：

2026-05-26

原始信息汇总

数据集概述：SpecsQA

所属项目：DualGraphRAG（Dual-View Graph-Enhanced Retrieval Augmented Generation Framework）

数据集名称：SpecsQA

来源：2025年11月从三星英国官网（Samsung UK website）爬取的快照。

内容规模：

共计 2,162 个产品页面。
覆盖 26 个消费电子产品类别。

标注数据：

117 个人工标注的问题，分为三类：
- 反向查询（Inverse Queries）：要求列出所有产品的穷举性问题。
- 多条件查询（Multi-condition Queries）：基于多个技术属性进行筛选。
- 推理与比较（Reasoning & Comparison）：需要跨产品进行聚合或比较的问题。

数据用途：作为技术问答（technical question answering）的评估基准，专注于产品规格信息的半结构化问答任务。

数据许可：CC BY-ND 4.0

数据文件：

scraped_data/：原始HTML产品页面（以 .tar.xz 格式打包）。
questions.json：117个标注问题的JSON文件。
scraping/：爬取原始HTML数据的工具。
databuilder/：预处理工具，用于将原始数据转换为可用于索引的格式。

搜集汇总

数据集介绍

构建方式

SpecsQA数据集的构建源自对2025年11月14日三星英国官网的快照采集，共抓取涵盖26个产品类别的2162个网页。这些网页融合了非结构化文本描述与结构化规格表格，但因不同类别布局各异，需设计专门的解析管线。对于映射至同一URL的多个产品变体，除原始HTML外，还额外存储了访问时的变体配置信息，并将产品名称、类别、价格、型号及规格属性等结构化元数据统一提取为JSON格式，最终形成了包含2327款独立产品的半结构化语料库。在此基础上，人工撰写了117个问题，旨在评估半结构化文档上的检索与推理能力。所有问题的标准答案均依据抓取时的网站信息手动标注，并将原始数据快照一并发布以确保可重复性。

特点

SpecsQA数据集的核心特点在于其面向语料库级别的检索与推理场景，要求系统跨多个文档及内容类型（自然语言描述与规格表格）识别并整合证据。问题被精心划分为四种类型：逆序查询（需检索满足给定属性的所有产品）、多条件查询（组合多个结构化约束）、分组比较查询（对比不同产品家族属性）及推理查询（涉及开放式推荐与用户偏好）。其中79.5%的问题为客观事实型，78.6%的答案需以产品列表形式呈现，支持确定性评估。特别地，由于数据集源自持续演化的商业网站快照，有效降低了预训练语言模型仅凭记忆即可作答的可能性，从而更真实地检验模型的检索与推理能力。

使用方法

SpecsQA的使用方法侧重于作为半结构化问答系统的诊断基准。研究者可将整个语料库作为检索池，利用问题集评估系统在跨文档检索、结构化属性过滤与多模态证据融合方面的表现。数据集提供了自然语言答案与规范产品列表两种标注形式，以支持灵活的评估策略：产品列表可通过集合精确率、召回率与F1值进行确定性评价，而自然语言答案则适用于开放式推理任务。此外，数据集中包含客观事实型与主观推荐型两类问题，便于研究者区分系统在精确检索与意图理解上的能力差异。为保持评估的公平性，所有实验应使用附带的时间节点快照数据，避免因网站内容更新导致的评测偏差。

背景与挑战

背景概述

SpecsQA数据集由三星AI华沙与剑桥研究中心于2025年联合创建，发表于ACL 2025会议。该数据集聚焦于半结构化文档的问答检索问题，构建自三星英国官网2025年11月的产品快照，涵盖2162个网页、26个产品类别。其核心研究问题在于弥合传统语义检索与符号查询之间的鸿沟——现有RAG系统依赖语义相似度进行检索，在处理结合自由文本与结构化规格表的半结构化语料时，难以完成精确过滤、聚合枚举等操作。SpecsQA通过手动标注117道涵盖逆向查询、多条件组合、组间对比及开放推理的考题，为评估检索增强生成系统在真实电商场景中的表现提供了诊断性基准，有力推动了图检索框架的演进。

当前挑战

SpecsQA所解决的领域核心挑战在于半结构化问答中语义与符号检索的天然断裂。常规RAG方法在语义空间检索文本块，面对需要精确过滤（如“支持5G且电池容量>4000mAh的机型”）或多文档聚合的规范导向型问题时力不从心；而纯符号方法虽能执行精确操作，却难以应对噪声自然语言与异构文档结构。在数据集构建过程中，挑战同样显著：网页布局因产品类别而异，需设计专用解析流水线；同一URL常映射多个变体，需额外存储变体配置元数据；规格表中的数值属性需经过单位归一化与维度解析才能用于SPARQL查询。此外，随时间演进的网站快照虽降低了预训练模型记忆答案的风险，却确保数据集的时效性与可复现性构成持续维护的工程难题。

常用场景

经典使用场景

SpecsQA数据集专为半结构化文档上的问答任务而设计，其最经典的用途是在包含自由文本描述与结构化规格表格的电商产品语料库上，评估检索增强生成系统的能力。该数据集涵盖逆向查询、多条件过滤、组间比较和开放式推理四类问题，要求模型不仅能够通过语义相似性定位相关文本片段，还需具备精确筛选、聚合及穷举检索等超越纯语义匹配的操作能力，因而成为衡量RAG系统在真实商业场景中综合表现的基准平台。

衍生相关工作

基于SpecsQA的挑战特性，衍生出了一系列经典工作，其中最具代表性的是DualGraph框架。DualGraph通过构建互补的文本知识图谱与符号知识图谱，分别支持语义检索与结构化查询，并结合路由、回退等多种编排策略，在SpecsQA上显著优于标准向量RAG、GraphRAG及纯符号方法。此外，该数据集也催生了对SPARQL查询生成、图谱模式消融及主观推荐问题评估等方向的深入研究，为半结构化问答领域树立了新的基准与改进方向。

数据集最近研究