Silesia Compression Corpus|压缩算法数据集|性能测试数据集

github2024-05-18 更新2024-05-31 收录

压缩算法

性能测试

下载链接：

https://github.com/MiloszKrajewski/SilesiaCorpus

下载链接

链接失效反馈

资源简介：

Silesia数据集是一套包含不同特性的文件集合，用于测试压缩算法。

The Silesia dataset is a collection of files with diverse characteristics, designed for testing compression algorithms.

创建时间：

2018-09-02

原始信息汇总

Silesia Compression Corpus 概述

数据集描述

Silesia Corpus 是一个用于测试压缩算法的数据集，包含多种不同特性的文件。

文件详情

大小（字节）	文件名	描述
10,192,446	dickens	英文小说，ASCII 纯文本
51,220,480	mozilla	程序，UNIX 可执行文件及其他，tar 格式
9,970,564	mr	3-D MRI 图像，DICOM 格式
33,553,445	nci	化学数据库，文本
6,152,192	ooffice	Windows DLL
10,085,684	osdb	数据库，合成数据，二进制
6,627,202	reymont	波兰语文本，未压缩的 PDF
21,606,400	samba	源代码和图形，tar 格式
7,251,944	sao	数据库，星表，二进制
41,458,703	webster	英文词典，HTML 格式
8,474,240	x-ray	16位灰度图像，DICOM 格式
5,345,280	xml	XML 文件，文本，tar 格式

AI搜集汇总

数据集介绍

构建方式

Silesia Compression Corpus 数据集的构建旨在为压缩算法提供多样化的测试样本。该数据集精心挑选了来自不同领域的文件，包括英文小说、程序代码、医学图像、化学数据库、动态链接库、数据库文件、波兰语文本、源代码与图形、星表数据库、英语词典、灰度图像以及XML文件。这些文件不仅在内容上具有显著差异，还在格式和编码方式上呈现出多样性，从而确保了压缩算法在不同场景下的适用性和鲁棒性。

特点

Silesia Compression Corpus 数据集的显著特点在于其文件类型的多样性和内容的丰富性。从文学作品到科学数据库，从程序代码到医学图像，该数据集涵盖了多个领域的典型文件，确保了压缩算法在不同应用场景中的广泛适用性。此外，文件的大小和格式各异，为压缩算法的性能评估提供了全面的基准。

使用方法

Silesia Compression Corpus 数据集主要用于评估和比较不同压缩算法的性能。用户可以通过对该数据集中的文件进行压缩和解压缩操作，分析各算法的压缩比、压缩速度和解压缩速度等关键指标。此外，该数据集还可用于开发和优化新的压缩算法，通过在多样化的文件上进行测试，确保算法的通用性和高效性。

背景与挑战

背景概述

Silesia Compression Corpus，由不同特性的文件组成，旨在为压缩算法提供测试基准。该数据集的创建时间可追溯至其首次公开发布，尽管具体年份未明确标注。主要研究人员或机构可能包括波兰西里西亚大学（Silesian University of Technology）的相关团队，因其原始链接指向该校的网站。核心研究问题聚焦于评估和比较各种压缩算法在处理不同类型数据时的性能。Silesia Compression Corpus对压缩算法领域的影响力显著，为研究人员提供了一个多样化的数据集，以验证和优化其算法。

当前挑战

Silesia Compression Corpus在解决压缩算法领域的挑战中，面临的主要问题是如何在多样化的数据类型上实现高效的压缩。数据集包含文本、图像、数据库、源代码等多种格式，要求算法在不同特性上均表现出色。构建过程中，遇到的挑战包括确保数据集的广泛代表性，以及维持数据的高质量和一致性。此外，随着数据类型的不断扩展和技术的进步，如何持续更新和扩展数据集以保持其前沿性也是一个重要挑战。

常用场景

经典使用场景

Silesia Compression Corpus 数据集因其多样化的文件类型和大小，成为评估和优化压缩算法性能的经典基准。该数据集包含了从文本文件到二进制文件的多种格式，如英文小说、程序代码、数据库文件等，为研究人员提供了丰富的测试场景。通过对比不同压缩算法在这些文件上的表现，研究者能够深入分析算法的效率、压缩比和速度，从而推动压缩技术的发展。

解决学术问题

Silesia Compression Corpus 数据集解决了压缩算法研究中常见的性能评估问题。传统的压缩算法评估往往依赖于单一类型的数据，难以全面反映算法在不同应用场景中的表现。该数据集通过提供多样化的文件类型，帮助研究者识别算法在不同数据结构下的优劣，进而优化算法的通用性和鲁棒性。这对于提升压缩技术的实际应用价值具有重要意义。

衍生相关工作

Silesia Compression Corpus 数据集的发布催生了一系列相关的经典研究工作。许多学者基于该数据集进行了深入的算法分析和改进，提出了多种新型压缩算法，如基于字典的压缩、熵编码等。此外，该数据集还被用于验证和比较不同压缩算法的性能，推动了压缩技术在理论和实践上的进步。这些研究成果不仅丰富了压缩算法的理论体系，也为实际应用提供了强有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中华人民共和国1:250万数字地质图空间数据库

People's Republic of China 1: 2.5 million digital geological map space database, in 2000 project, completed in 2001, which lasted two years. In addition to the main database, the database is composed of geo-map database and geographic content attribute library, geological content attribute library, color library, linear library, pattern library, symbol library and legend library. With the geological content, administrative area, arbitrary space and geographical content of the search and automatic output mapping, automatic drawing of geological symbols, automatic legend and other functions.1: 2.5 million scale digital geological map of the completion of the spatial database to make up for the gaps in the field. It is of great significance to show and improve the degree of geological research in mainland China, to summarize and reflect the overall characteristics of China's geology, and to provide basic geological data for economic construction, land and resources management, geological survey and so on.

DataCite Commons 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型，其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格，分为 16 个常见对象类（即桌子、椅子、平面等）。每个形状基本事实包含 2-5 个部分（总共 50 个部分类）。

OpenDataLab 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录