news-page-dataset
收藏arXiv2025-02-20 更新2025-02-22 收录
下载链接:
https://github.com/ispras/news-page-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由俄罗斯科学院系统编程研究所和莫斯科国立大学共同创建的大型开放访问数据集,专为列表页面设计。数据集包含13120个新闻列表网页,涵盖了多种类型的属性,如可选属性和多值属性,为现实世界列表页面提供了一个真实的表现。该数据集是俄语中首个针对此任务的公开数据集,旨在推进信息从多记录页面提取的研究。
This large open-access dataset was jointly created by the Institute of System Programming of the Russian Academy of Sciences and Lomonosov Moscow State University, and is specifically designed for list web pages. It contains 13,120 news list web pages, covering a wide range of attribute types including optional attributes and multi-valued attributes, providing a realistic representation of real-world list web pages. This is the first publicly available dataset for this task in Russian, and aims to advance research on information extraction from multi-record web pages.
提供机构:
俄罗斯科学院系统编程研究所,莫斯科国立大学
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
本研究构建了一个大规模的多记录网页信息提取数据集,包含来自俄罗斯语言新闻网站的13,120个网页。数据集的构建包括从网站下载网页、清理和翻译HTML代码、将网页划分为训练集和测试集等步骤。在网页下载方面,使用了基于Scrapy库的Python脚本来抓取网页。在数据预处理方面,进行了重复页面过滤、HTML代码清洗、翻译等操作。最后,将数据集分为训练集和测试集,以75%的比例分配训练集,25%的比例分配测试集。
使用方法
使用本数据集的方法包括:1) 下载并加载数据集;2) 根据需要选择训练集或测试集进行模型训练或评估;3) 利用数据集中的标注信息,训练信息提取模型,如分类模型、序列标注模型等;4) 在数据集上评估模型性能,使用精确度、召回率和F1分数等指标。
背景与挑战
背景概述
在互联网时代,大量信息以复杂的多记录格式呈现,特别是在新闻网站上。本文关注的任务是提取包含多条记录的网页上的信息,这类页面通常被称为列表页面。为了解决这一任务,研究人员构建了一个大规模的数据集,名为news-page-dataset,包含超过13,000个来自俄罗斯语言新闻网站的网页。该数据集是首个针对多记录页面信息提取任务设计的俄语数据集,其规模和复杂性远超现有数据集。该数据集的构建旨在为研究信息提取方法提供一个有价值的资源,并提出了一个多阶段的信息提取方法。
当前挑战
该数据集在构建过程中遇到的挑战包括:1) 如何从包含大量记录的网页中提取信息,这不同于传统的单一记录或详细页面;2) 如何处理动态更改CSS样式的网站,以保持数据的一致性;3) 如何有效地对多值属性进行标注和提取。在解决领域问题方面,该数据集面临的挑战包括:1) 提高从多记录页面中提取信息的准确性和效率;2) 设计适用于多记录页面的信息提取方法;3) 评估和比较不同信息提取方法的性能。
常用场景
经典使用场景
news-page-dataset 数据集的经典使用场景在于,它为研究者提供了一个大规模的多记录网页信息提取的实验平台。该数据集包含超过13,000个来自俄罗斯新闻网站的网页,这些网页按照类别进行了划分,每个类别下的网页包含多个新闻记录。因此,它非常适合用来训练和测试面向多记录页面的信息提取模型,如分类、标签标注、信息边界检测等任务。
解决学术问题
该数据集解决了多记录网页信息提取中存在的学术研究问题,包括如何准确识别记录边界、如何从复杂的HTML结构中提取所需的属性信息等。它为研究人员提供了一个实验基础,以改进和验证信息提取算法的性能,推动了该领域的研究进展。
实际应用
在实际应用中,news-page-dataset 可用于构建自动化新闻聚合系统,从多个新闻网站上抓取和整理新闻信息。它也可以用于开发智能助手,为用户提供定制化的新闻摘要和推荐服务。此外,该数据集还可应用于网络内容监控,帮助分析新闻网站的更新趋势和内容分布。
数据集最近研究
最新研究方向
本文提出了一个针对提取多记录网页信息的新的大型数据集,包含超过13,000个来自俄罗斯新闻网站的网页。该数据集是第一个针对多记录页面信息提取任务的俄语数据集,其规模远超现有数据集,并包含可选和多变值属性,为研究人员提供了宝贵的资源。文章还提出了一种多阶段信息提取方法,并验证了其有效性。该研究不仅局限于俄罗斯新闻网站,还为其他形式半结构化网页内容的提取提供了有价值的贡献。
相关研究论文
- 1Multi-Record Web Page Information Extraction From News Websites俄罗斯科学院系统编程研究所,莫斯科国立大学 · 2025年
以上内容由遇见数据集搜集并总结生成



