rootsautomation/websrc
收藏Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rootsautomation/websrc
下载链接
链接失效反馈官方服务:
资源简介:
WebSRC v1.0是一个用于网页结构阅读理解的数据集。该数据集包含6.4K个网页和40万个关于网页的问题-答案对。任务要求系统全面理解网页的空间结构和逻辑结构。数据集的特点包括域、页面ID、问题、答案和图像。图像以base64编码的二进制字符串形式存储。数据集分为训练集和开发集,分别包含307,315和52,826个问题-答案对。数据集的目标是帮助开发大型多模态模型(LMM),特别是在需要推理屏幕内容的数字领域。
WebSRC v1.0 is a dataset for web structure reading comprehension. It contains 6.4K web pages and 400K question-answer pairs related to these web pages. The task requires AI systems to comprehensively understand both the spatial and logical structures of web pages. The dataset includes fields such as domain, page ID, question, answer, and accompanying images. Images are stored as base64-encoded binary strings. The dataset is split into a training set and a development set, which contain 307,315 and 52,826 question-answer pairs respectively. The goal of this dataset is to assist the development of large multimodal models (LMMs), especially in digital domains where reasoning about screen content is required.
提供机构:
rootsautomation
原始信息汇总
数据集概述
数据集名称: WebSRC v1.0
数据集任务: 阅读理解,特别是针对网页结构的理解。
数据集规模:
- 包含6.4K个网页。
- 包含400K个问题-答案对。
数据集特征:
- domain: 字符串,网站的广泛类别。
- page_id: 字符串,网页的唯一ID。
- question: 字符串,需要回答的问题。
- answer: 字符串,实际答案。
- image: 字符串,图像的base64编码。
数据集分割:
- 训练集: 包含4,549个网页,307,315个问题-答案对。
- 开发集: 包含913个网页,52,826个问题-答案对。
数据集统计:
-
问题类型分为KV、Compare和Table三种,具体分布如下:
类型 # Websites # Webpages # QAs KV 34 3,207 168,606 Comparison 15 1,339 68,578 Table 21 1,901 163,314
数据集用途: 主要用于大型多模态模型(LMM)的开发,特别是在需要对屏幕内容进行推理的数字领域。
搜集汇总
数据集介绍

构建方式
在网页结构理解的研究领域,WebSRC数据集的构建体现了对多模态信息的系统整合。该数据集从6,400个真实网页中提取了400,000个问答对,每个样本均包含网页截图、问题及对应答案。构建过程首先依据网页的视觉与逻辑结构,将网页划分为不同语义片段,并针对每个片段设计自然语言问题。答案来源于网页中的文本片段或二元判断,确保了任务对结构理解的依赖性。原始数据涵盖了HTML源码与元数据,而当前版本则专注于以截图形式呈现的视觉信息,为模型提供了结构化的多模态学习素材。
特点
WebSRC数据集的核心特点在于其强调对网页空间与逻辑结构的深度理解。数据集覆盖了键值对、比较与表格三大类问题,分别对应不同的结构推理需求,例如定位特定元素或进行跨区域信息比对。每个样本均关联网页截图,以视觉形式封装了布局、文本与交互元素,从而要求模型融合视觉与语义特征进行推理。数据规模庞大,包含超过30万个训练样本与5万个开发样本,且源自多样化的网页领域,为结构化阅读理解任务提供了丰富且具挑战性的评估基准。
使用方法
使用WebSRC数据集时,研究者可将其应用于多模态阅读理解模型的训练与评估。数据以标准格式组织,包含网页领域、页面标识、问题、答案及经Base64编码的截图图像。用户需通过解码函数将图像字符串转换为PIL图像对象,以结合视觉输入进行端到端学习。该数据集适用于监督学习框架,模型需依据问题从截图推断答案,可支持视觉问答、文档理解等任务。开发集用于调参与验证,而测试集需参照原始仓库提交结果,确保了评估的严谨性与可复现性。
背景与挑战
背景概述
WebSRC数据集由Xingyu Chen等研究人员于2021年提出,旨在推动网页结构阅读理解领域的研究。该数据集聚焦于网页内容的结构化理解,要求系统不仅解析文本语义,还需整合视觉与逻辑布局信息。其核心研究问题在于如何让机器像人类一样,从复杂的网页结构中提取准确答案,从而提升信息检索的智能化水平。WebSRC包含6.4K个网页和40万对问答,覆盖键值对、比较和表格三类任务,为自然语言处理与计算机视觉的交叉研究提供了重要基准,对网页自动化理解技术的发展产生了深远影响。
当前挑战
WebSRC数据集所解决的领域问题在于网页结构阅读理解,其挑战在于模型需同时处理文本语义、视觉特征与HTML结构的多模态融合,以应对网页布局的多样性和动态性。构建过程中的挑战包括:大规模高质量标注的复杂性,要求标注者深入理解网页逻辑结构;数据收集需平衡网页类型与问题类别的代表性,确保数据分布的广泛性;此外,将原始网页转换为可处理的格式(如截图与编码数据)时,需保持结构信息的完整性,避免信息损失。
常用场景
经典使用场景
在网页理解与智能问答领域,WebSRC数据集被广泛用于训练和评估模型对结构化网页的阅读理解能力。该数据集通过提供网页截图与对应的问题-答案对,促使模型不仅解析文本语义,还需结合网页的视觉布局与逻辑结构进行推理。经典应用场景包括模拟真实网络环境下的信息检索任务,例如从电商页面提取产品价格或从新闻网站定位特定事件细节,这要求模型跨越纯文本理解,融入多模态特征分析。
解决学术问题
WebSRC数据集主要解决了机器在网页内容理解中的结构性阅读难题,弥补了传统文本数据集忽略视觉与空间信息的不足。它推动学术研究关注多模态融合方法,如何将HTML结构、截图视觉特征与自然语言处理结合,以提升模型对复杂网页元素的解析精度。该数据集的意义在于为网页智能问答设立了新基准,促进了跨模态推理技术的发展,并对自动化信息提取、无障碍网页访问等研究方向产生深远影响。
衍生相关工作
围绕WebSRC数据集,衍生出多项经典研究工作,包括基于多模态Transformer的端到端模型,这些模型整合视觉编码器与语言模型以处理网页截图和HTML数据。相关探索聚焦于结构感知注意力机制,增强模型对表格、列表等网页元素的识别能力。此外,该数据集激发了跨任务迁移学习的研究,例如将网页理解技术应用于文档分析或GUI自动化,进一步拓展了多模态推理的应用边界。
以上内容由遇见数据集搜集并总结生成



