TheBritishLibrary/web_archive_classification
收藏Hugging Face2023-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheBritishLibrary/web_archive_classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由UKWA手动整理,包含了对网站的两层主题分类。数据集来源于Internet Archive和JISC的合作,涵盖了1996年至2013年间以.uk结尾的域名资源。数据集以TSV格式提供,旨在用于训练自动分类系统,以自动化UKWA更大档案的分类。数据集的语言为英语,大小为10K到100K之间,适用于文本分类任务,特别是多类和多标签分类。
提供机构:
TheBritishLibrary
原始信息汇总
数据集概述
数据集基本信息
- 名称: UK Selective Web Archive Classification Dataset
- 语言: 英语 (en)
- 许可证: 其他
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 多类分类, 多标签分类
数据集描述
- 摘要: 该数据集包含由UKWA手动策划的选择性档案,包括将站点分类到两级主题层次结构中。与Internet Archive和JISC合作,UKWA获得了与英国相关的Internet Archive网络收藏的子集的访问权限。JISC UK Web Domain Dataset(1996 - 2013)包含了来自Internet Archive的所有资源,这些资源托管在以“.uk”结尾的域上,或者需要渲染这些英国页面。UKWA已将这种手动生成的分类信息作为开放数据集以Tab Separated Values(TSV)格式提供。
许可证信息
- 许可证: Creative Commons Public Domain Mark 1.0.



