five

Latin American and Caribbean Contemporary Art Web Archive collection derivatives

收藏
Mendeley Data2024-03-27 更新2024-06-28 收录
下载链接:
https://zenodo.org/record/3633118
下载链接
链接失效反馈
官方服务:
资源简介:
Web archive derivatives of the Latin American and Caribbean Contemporary Art Web Archive collection collection from the Ivy Plus Libraries Confederation. The derivatives were created with the Archives Unleashed Toolkit and Archives Unleashed Cloud. The ivy-11576-parquet.tar.gz derivatives are in the Apache Parquet format, which is a columnar storage format. These derivatives are generally small enough to work with on your local machine, and can be easily converted to Pandas DataFrames. See this notebook for examples. Domains .webpages().groupBy(ExtractDomainDF($"url").alias("url")).count().sort($"count".desc) Produces a DataFrame with the following columns: domain count Web Pages .webpages().select($"crawl_date", $"url", $"mime_type_web_server", $"mime_type_tika", RemoveHTMLDF(RemoveHTTPHeaderDF(($"content"))).alias("content")) Produces a DataFrame with the following columns: crawl_date url mime_type_web_server mime_type_tika content Web Graph .webgraph() Produces a DataFrame with the following columns: crawl_date src dest anchor Image Links .imageLinks() Produces a DataFrame with the following columns: src image_url Binary Analysis Audio Images PDFs Presentation program files Spreadsheets Text files Word processor files The ivy-11576-auk.tar.gz derivatives are the standard set of web archive derivatives produced by the Archives Unleashed Cloud. Gephi file, which can be loaded into Gephi. It will have basic characteristics already computed and a basic layout. Raw Network file, which can also be loaded into Gephi. You will have to use that network program to lay it out yourself. Full text file. In it, each website within the web archive collection will have its full text presented on one line, along with information around when it was crawled, the name of the domain, and the full URL of the content. Domains count file. A text file containing the frequency count of domains captured within your web archive.

本数据集为常春藤+图书馆联盟(Ivy Plus Libraries Confederation)旗下拉丁美洲与加勒比当代艺术网络档案馆藏的网络档案衍生数据集。 该衍生数据集通过档案释放工具包(Archives Unleashed Toolkit)与档案释放云平台(Archives Unleashed Cloud)生成。 其中`ivy-11576-parquet.tar.gz`衍生数据集采用Apache Parquet格式(一种列式存储格式)。此类衍生数据集体积普遍较小,可在本地设备直接处理,且可轻松转换为Pandas DataFrames(数据框)。如需操作示例可参考此Notebook。 ### 数据分析接口 1. **域名统计**:执行代码`Domains .webpages().groupBy(ExtractDomainDF($"url").alias("url")).count().sort($"count".desc)`,将生成包含以下字段的数据框:`domain`(域名)、`count`(计数)。 2. **网页数据提取**:执行代码`Web Pages .webpages().select($"crawl_date", $"url", $"mime_type_web_server", $"mime_type_tika", RemoveHTMLDF(RemoveHTTPHeaderDF(($"content"))).alias("content"))`,将生成包含以下字段的数据框:`crawl_date`(爬取日期)、`url`(资源地址)、`mime_type_web_server`(服务器MIME类型)、`mime_type_tika`(Tika识别MIME类型)、`content`(内容,已移除HTTP头与HTML标签)。 3. **网络图谱数据**:调用`Web Graph .webgraph()`,将生成包含以下字段的数据框:`crawl_date`(爬取日期)、`src`(源URL)、`dest`(目标URL)、`anchor`(锚文本)。 4. **图片链接数据**:调用`Image Links .imageLinks()`,将生成包含以下字段的数据框:`src`(源URL)、`image_url`(图片URL)。 5. **二进制分析覆盖文件类型**:音频文件、图片文件、PDF文档、演示文稿、程序文件、电子表格、文本文件、文字处理文档。 `ivy-11576-auk.tar.gz`衍生数据集为档案释放云平台生成的标准网络档案衍生数据集套装,包含以下文件: - Gephi可视化文件:可直接导入Gephi网络可视化工具,已预计算基础网络特征并完成基础布局。 - 原始网络文件:同样可导入Gephi工具,但需用户自行使用该网络分析软件完成布局操作。 - 全文本文件:文件内每行对应馆藏中的一个网站,完整呈现该网站的文本内容,并附带爬取时间、所属域名与资源完整URL等元数据。 - 域名计数文件:文本格式文件,记录本次网络档案采集中各域名的出现频次。
创建时间:
2023-06-28
二维码
社区交流群
二维码
科研交流群
商业服务