X-LANCE/WebSRC_v1.0
收藏Hugging Face2025-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/X-LANCE/WebSRC_v1.0
下载链接
链接失效反馈官方服务:
资源简介:
WebSRC v1.0是一个面向网页结构阅读理解任务的数据集,包含6.4K个网页和400K个问题-答案对。这些问题-答案对覆盖了网页的HTML源代码、截图和元数据。每个问题都需要对网页的特定结构有一定的理解才能回答,答案可以是网页上的文本跨度或者是是/否。
WebSRC v1.0 is a dataset for web-based structural reading comprehension, consisting of 6.4K web pages and 400K question-answer pairs. These question-answer pairs cover the HTML source code, screenshots, and metadata of the web pages. Each question requires a certain level of understanding of the web pages structure to answer, and the answers can be text spans on the web page or yes/no.
提供机构:
X-LANCE
原始信息汇总
WebSRC v1.0 数据集概述
数据集描述
- 名称: WebSRC v1.0
- 类型: 用于结构化网页阅读理解的问答数据集
- 内容: 包含6.4K网页和400K关于网页的问答对
- 特点: 提供HTML代码、截图及元数据(如位置和大小),答案类型为文本或yes/no
数据格式
- 存储位置: 每个网站的数据存储在
{domain-name}/{website-number}目录下的dataset.csv文件中 - 数据结构:
question: 问题文本id: 唯一标识,前两位为域指示,后两位为网站名element_id: 答案所在DOM树中最深标签的ID,yes/no问题为-1answer_start: 答案在标签内容中的起始字符偏移answer: 答案文本
数据统计
- 问题分类: KV, Compare, Table
- 各类别统计:
- KV: 34网站, 3,207网页, 168,606问答对
- Compare: 15网站, 1,339网页, 68,578问答对
- Table: 21网站, 1,901网页, 163,314问答对
- 数据集分割:
- Train: 50网站, 4,549网页, 307,315问答对
- Dev: 10网站, 913网页, 52,826问答对
- Test: 10网站, 985网页, 40,357问答对
测试结果提交
- 提交方式: 将预测文件发送至zhao_mengxin@sjtu.edu.cn和chenlusz@sjtu.edu.cn
- 文件要求: 包含
prediction.json和tag_prediction.json两个JSON格式文件 - 建议: 至少提交三次不同随机种子的运行结果,以减少实验不确定性
引用信息
- 引用文献: Chen et al., "WebSRC: A Dataset for Web-Based Structural Reading Comprehension", EMNLP 2021
搜集汇总
数据集介绍

构建方式
在网页结构理解研究领域,WebSRC v1.0数据集的构建体现了对多模态与结构化信息的深度整合。该数据集从6.4K个网页中精心选取片段,并同步采集了对应的HTML源代码、屏幕截图以及包含位置与尺寸的元数据。针对每个片段,研究者人工设计了共计40万个问题-答案对,答案形式涵盖文本片段抽取与是/非判断两类,确保了任务对网页空间与逻辑结构的全面考察。
特点
WebSRC v1.0的显著特征在于其首次融合了HTML文档与视觉图像的双重模态,为模型理解网页的布局与内容提供了互补信息。数据集规模宏大,覆盖领域广泛,并将问题系统划分为键值对提取、对比分析与表格理解三大类别,每种类型均对应特定的结构理解需求。其数据划分清晰,包含训练集、开发集与测试集,为模型训练与评估提供了可靠基准。
使用方法
使用该数据集时,模型需同时接收HTML代码、截图、元数据及问题作为输入,进而预测源自网页的答案。数据以CSV格式组织,每条记录包含问题文本、唯一标识符、关联的DOM元素ID及答案位置等信息。对于测试集评估,用户需提交包含预测答案与预测标签的JSON文件,并通过指定邮箱提交结果,鼓励进行多次随机种子实验以降低不确定性,最终平均结果将通过邮件反馈。
背景与挑战
背景概述
随着互联网信息检索需求的日益增长,机器对网页内容的理解成为自然语言处理领域的关键挑战。在此背景下,上海交通大学的研究团队于2021年推出了WebSRC v1.0数据集,旨在推动基于网页结构的阅读理解研究。该数据集聚焦于网页空间与逻辑结构的综合解析,涵盖了6.4万个网页及40万对问答数据,通过融合HTML代码、屏幕截图与元数据,为模型提供了多模态输入基础。其核心研究问题在于如何使系统超越文本语义,深入理解网页的布局与功能结构,从而精准定位答案。作为首个同时提供文档与图像的大规模网页理解数据集,WebSRC v1.0显著拓展了多模态推理的研究边界,为智能搜索与信息提取技术奠定了新的基准。
当前挑战
WebSRC v1.0所针对的网页结构阅读理解任务,面临多重领域挑战。首要难题在于模型需同步处理文本、视觉与结构信息,以应对网页中动态布局与交互元素的复杂性;同时,答案可能分散在多层DOM节点中,要求系统具备跨模态对齐与逻辑推理能力。在数据集构建过程中,研究人员需克服网页异构性带来的标注困难,例如如何平衡不同领域(如表格、对比类网页)的覆盖范围,并确保问答对准确反映结构依赖性。此外,手动筛选网页片段并关联HTML、图像与元数据,需耗费大量资源以维持数据的一致性与质量,这些挑战共同塑造了该数据集在推动机器深层网页理解方面的独特价值。
常用场景
经典使用场景
在网页理解与智能交互领域,WebSRC v1.0数据集为结构化阅读理解任务提供了经典的应用场景。该数据集通过结合网页的HTML代码、屏幕截图及元数据,要求模型基于空间与逻辑结构理解,精准回答关于网页内容的自然语言问题。其核心应用在于训练和评估多模态模型,使其能够解析网页的视觉布局与文本语义,从而在复杂网页环境中定位并提取答案,推动了机器对网页内容深层理解的能力。
解决学术问题
WebSRC v1.0数据集主要解决了网页内容自动化理解中的关键学术问题,特别是如何融合视觉与结构信息以提升机器阅读理解性能。传统文本阅读理解模型往往忽视网页的空间布局与逻辑层次,而该数据集通过提供HTML文档、截图及元数据,使研究者能够探索多模态融合方法,克服了单一文本模态的局限性。这不仅促进了结构化阅读理解任务的发展,还为网页语义解析、人机交互等研究提供了新的基准,具有重要的理论创新价值。
衍生相关工作
基于WebSRC v1.0数据集,学术界衍生了一系列经典研究工作,主要集中在多模态融合与结构化理解模型的创新上。例如,研究者开发了结合视觉特征与HTML解析的端到端神经网络,以提升答案定位的准确性;同时,该数据集也催生了针对网页表格理解、比较类问题回答等子任务的专项模型。这些工作不仅丰富了阅读理解技术的方法论,还为后续更大规模网页数据集(如WebQA、WebNLG)的构建提供了重要参考,形成了持续的研究脉络。
以上内容由遇见数据集搜集并总结生成



