five

TheBritishLibrary/web_archive_classification

收藏
Hugging Face2023-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheBritishLibrary/web_archive_classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由UKWA手动整理,包含了对网站的两层主题分类。数据集来源于Internet Archive和JISC的合作,涵盖了1996年至2013年间以.uk结尾的域名资源。数据集以TSV格式提供,旨在用于训练自动分类系统,以自动化UKWA更大档案的分类。数据集的语言为英语,大小为10K到100K之间,适用于文本分类任务,特别是多类和多标签分类。
提供机构:
TheBritishLibrary
原始信息汇总

数据集概述

数据集基本信息

  • 名称: UK Selective Web Archive Classification Dataset
  • 语言: 英语 (en)
  • 许可证: 其他
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多类分类, 多标签分类

数据集描述

  • 摘要: 该数据集包含由UKWA手动策划的选择性档案,包括将站点分类到两级主题层次结构中。与Internet Archive和JISC合作,UKWA获得了与英国相关的Internet Archive网络收藏的子集的访问权限。JISC UK Web Domain Dataset(1996 - 2013)包含了来自Internet Archive的所有资源,这些资源托管在以“.uk”结尾的域上,或者需要渲染这些英国页面。UKWA已将这种手动生成的分类信息作为开放数据集以Tab Separated Values(TSV)格式提供。

许可证信息

  • 许可证: Creative Commons Public Domain Mark 1.0.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作