five

Építészfórum

收藏
NIAID Data Ecosystem2026-03-13 收录
下载链接:
https://zenodo.org/record/5802311
下载链接
链接失效反馈
官方服务:
资源简介:
This object has been created as a part of the web harvesting project of the Eötvös Loránd University Department of Digital Humanities ELTE DH. Learn more about the workflow HERE about the software used HERE.The aim of the project is to make online news articles and their metadata suitable for research purposes. The archiving workflow is designed to prevent modification or manipulation of the downloaded content. The current version of the curated content with normalized formatting in standard TEI XML format with Schema.org encoded metadata is available HERE. The detailed description of the raw content is the following: The portal's archived content (from 1970-01-01 to 2021-07-31) in WARC format available HERE (crawled: 2021-08-01T20:44:42.297270 - 2021-08-01T22:57:06.817997).

本数据集系厄特沃什·罗兰大学数字人文系(Eötvös Loránd University Department of Digital Humanities,简称ELTE DH)网页爬取项目的组成部分。有关项目工作流程与所用软件的详情,请点击此处查看。 本项目旨在将在线新闻文章及其元数据转化为适配学术研究的形态。本归档工作流的设计初衷是避免下载的内容被篡改或操纵。当前已筛选整理的内容已完成格式标准化,采用标准TEI XML(文本编码倡议XML)格式,并附带Schema.org编码的元数据,获取该版本内容的链接请点击此处。 原始内容的详细说明如下: 该门户网站的归档内容(时间范围为1970年1月1日至2021年7月31日)以WARC(Web ARChive)格式存储,获取该原始内容的链接请点击此处(爬取时段:2021-08-01 20:44:42.297270 至 2021-08-01 22:57:06.817997)。
创建时间:
2022-04-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作