AllSERP
收藏arXiv2026-05-06 更新2026-05-10 收录
下载链接:
https://zenodo.org/records/15236546
下载链接
链接失效反馈官方服务:
资源简介:
AllSERP是由独立研究者Andy Edmonds创建的高分辨率搜索引擎结果页(SERP)行为数据集,作为AdSERP数据集的扩展版本。该数据集包含2776次完整试验,整合了150Hz眼动追踪、鼠标遥测、滚动信号及像素级有机元素标注,通过计算机视觉和HTML解析器新增13种元素类型标注。数据采集自2022-2023年真实Google SERP页面,采用截图锚定技术确保几何精度,解决了原始数据集仅覆盖15.5%广告点击的局限。该数据集支持点击归因、注视点回归等细粒度分析,为信息检索、用户行为建模和认知负荷研究提供基准,特别适用于比较AI概览功能推出前后的搜索行为差异。
AllSERP is a high-resolution search engine results page (SERP) behavior dataset created by independent researcher Andy Edmonds, serving as an extended version of the AdSERP dataset. This dataset comprises 2,776 full trials, integrating 150Hz eye-tracking, mouse telemetry, scrolling signals, and pixel-level organic element annotations, with 13 additional element type annotations added via computer vision and HTML parsers. Data was collected from real Google SERP pages between 2022 and 2023, using screenshot anchoring technology to ensure geometric accuracy, addressing the limitation of the original dataset that only covered 15.5% of ad clicks. This dataset supports fine-grained analyses such as click attribution and gaze point regression, providing benchmarks for information retrieval, user behavior modeling, and cognitive load research, and is particularly suitable for comparing differences in search behavior before and after the launch of AI overview features.
提供机构:
独立研究者
创建时间:
2026-05-06
搜集汇总
数据集介绍

构建方式
AllSERP数据集构建于AdSERP语料库之上,旨在对搜索引擎结果页面进行详尽的按元素类型标注。其构建流程分为四个关键阶段:首先,通过基于截图的行投影计算机视觉技术,提取主列中每个结果卡片的像素级精确边界框,同时保留已发布的广告矩形框作为优先级参考。其次,利用一个八层优先级的HTML解析器,为每个卡片分配语义类型标签,涵盖了从自然结果、广告到知识面板、图片包等十三种元素类型。第三步,依据文档顺序将标签与几何信息绑定,确保在不共享坐标空间的HTML与截图间建立稳定关联。最后,通过中点分割方法填补相邻自然结果之间的垂直间隙,形成扩展后的边界框,从而覆盖了原本广告框仅占15.5%可归因点击的局限,实现了对全部主要轴元素的全覆盖。
特点
AllSERP数据集的显著特点在于其对搜索引擎结果页面元素的全面覆盖与精细化标注。它超越了原AdSERP仅区分广告与自然结果的二元划分,提供了十三种细粒度元素类型,包括自然结果、顶部广告、原生广告、右栏广告、图片包、知识面板、人们还问等,使得约84.5%先前未被标注的点击区域得以纳入分析。该数据集通过内部一致性验证确保了高质量:在与原始广告矩形的38,250次分类比较中实现零差异,平均交并比达到1.000。此外,所有元素均包含像素级精确的边界框和垂直间隙填充版本,支持研究者根据具体分析需求选择严格的紧边界框或扩展的间隙填充语义。实验结果表明,该数据集揭示了点击与注视之间的显著分离现象,为理解用户注意力分布提供了比以往更精细的视角。
使用方法
AllSERP数据集的发布包含语料库CSV文件、逐试验JSON文件以及可复现的数据处理管道,为研究者提供了灵活的使用方式。用户可通过加载CSV文件获取每个兴趣区域的几何信息、元素类型及位置排序,并利用录制的眼动、鼠标轨迹、滚动和瞳孔信号进行跨模态分析。该数据集特别适用于点击模型研究,支持基于级联模型或DCM等方法的参数估计;适用于注意力与认知负荷分析,可将瞳孔指标或注视回归率按元素类型进行条件化处理;也适用于信息觅食理论验证,通过查询-摘要语义余弦相似度作为信息线索的操作性代理。数据集附带基于浏览器的回放查看器,可对147个精选试验进行可视化验证。使用者需同时引用AllSERP与原始AdSERP论文,以尊重基础多模态信号的数据来源。
背景与挑战
背景概述
AllSERP数据集由独立研究员Andy Edmonds于2026年发布,旨在对AdSERP商业意图搜索引擎结果页面(SERP)语料库进行详尽的逐元素类型化与行为丰富化处理。AdSERP作为唯一公开的结合眼动追踪、鼠标轨迹、滚动、瞳孔信号及真实Google SERP屏幕截图的多模态信息检索数据集,其初始标注仅覆盖广告区域,约占可归因点击的15.5%,限制了研究者对有机结果、知识面板、图片包等其他关键SERP元素的深入分析。AllSERP通过引入基于屏幕截图的计算机视觉与八层HTML解析器,精准提取了包含有机结果、顶部广告、知识面板等十三种元素类型的像素级边界框,并实现了91.7%的点击归因率,为搜索行为、用户注意力分配及信息觅食理论的研究提供了前所未有的粒度支持,对信息检索与人机交互领域具有重要的基线价值。
当前挑战
AllSERP所解决的领域问题核心在于突破AdSERP仅能区分广告与非广告区域的粗粒度分析框架,实现了对SERP中十三种元素类型的精细可区分性,使得点击-注视解耦、回归率、首屏几何等行为指标能在元素级别被精确计量,从而揭示了信息觅食理论中不同表面上的用户互动模式差异。在构建过程中,主要挑战包括:1) 屏幕截图与保存的HTML之间存在13至45像素的布局偏移,这源于浏览器版本差异、外部资源缺失及Google持续A/B测试,因此需设计基于屏幕截图锚定的计算机视觉管线以稳定对齐AOI几何;2) 开发八层优先级HTML解析链以准确为每个主轴线卡片分配语义类型,并处理广告、小部件及脚注工件的复杂边界;3) 提出中点分割启发式算法填补相邻有机结果间的垂直间隙,并运用X+Y包含性点击归因策略,以过滤右栏广告、页面镀铬等离轴点击,最终将测试集的点击归因覆盖提升至91.7%。
常用场景
经典使用场景
在信息检索与人类行为交叉研究中,AllSERP数据集最经典的用途在于为搜索引擎结果页面(SERP)上每个可视化元素提供精确的像素级标注与语义分类。该数据集将AdSERP原始语料中仅覆盖广告区域的矩形框扩展至十三个元素类型,包括自然结果、知识面板、图片包、PAA(People-Also-Ask)控件等,并辅以填补间隔的gap-fill策略,实现了91.7%的点击归属率。研究者可借此开展基于元素粒度的注视点、回视率、视区内外分布等行为特征分析,突破了传统仅区分广告与自然结果的粗粒度局限,为深入理解用户与SERP各组件的交互模式奠定了坚实的数据基础。
实际应用
在实际应用层面,AllSERP为搜索引擎商业团队与用户体验研究者提供了可直接部署的分析工具。广告商可利用该数据集精确评估不同广告格式(如顶部广告、原生广告)与自然结果在相同排序位置上的注意力竞争关系,从而优化广告投放策略与竞价模型。搜索引擎设计者可通过分析知识面板、图片包等异质元素对用户决策路径的影响,调整页面布局以平衡商业收入与用户体验。此外,该数据集所配套的可复现流水线与浏览器重放查看器,使得从业者能够轻松将元素级行为分析融入现有工作流,例如基于光标接近特征预测用户对特定组件的点击意图,或结合瞳孔认知负荷信号评估搜索结果页的认知负担。
衍生相关工作
AllSERP的发布催生了一系列基于元素粒度的创新研究工作。在注意力建模方面,AdSight模型已被改进以预测十三个元素类型上每个槽位的注视时间,性能指标NDCG达到96.07±0.04,远超原有四类广告槽位的精细度。在认知负荷领域,研究者正在开发针对该数据集的实时LF/HF瞳孔功率比与单次注视唤醒度(RIPA2)方法,以区分用户扫描自然结果与浏览知识面板时的认知状态差异。此外,信息觅食理论框架下的内容特征分析得以推进,学者通过计算查询-片段语义余弦相似度与查询词重叠率,探索不同元素表面上的信息线索与用户行为之间的协变关系。这些工作共同标志着SERP行为研究从粗粒度分区向元素级精准建模的范式转变。
以上内容由遇见数据集搜集并总结生成



