Silesia Compression Corpus|压缩算法数据集|性能测试数据集
收藏Silesia Compression Corpus 概述
数据集描述
Silesia Corpus 是一个用于测试压缩算法的数据集,包含多种不同特性的文件。
文件详情
| 大小(字节) | 文件名 | 描述 |
|---|---|---|
| 10,192,446 | dickens | 英文小说,ASCII 纯文本 |
| 51,220,480 | mozilla | 程序,UNIX 可执行文件及其他,tar 格式 |
| 9,970,564 | mr | 3-D MRI 图像,DICOM 格式 |
| 33,553,445 | nci | 化学数据库,文本 |
| 6,152,192 | ooffice | Windows DLL |
| 10,085,684 | osdb | 数据库,合成数据,二进制 |
| 6,627,202 | reymont | 波兰语文本,未压缩的 PDF |
| 21,606,400 | samba | 源代码和图形,tar 格式 |
| 7,251,944 | sao | 数据库,星表,二进制 |
| 41,458,703 | webster | 英文词典,HTML 格式 |
| 8,474,240 | x-ray | 16位灰度图像,DICOM 格式 |
| 5,345,280 | xml | XML 文件,文本,tar 格式 |

AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中华人民共和国1:250万数字地质图空间数据库
People's Republic of China 1: 2.5 million digital geological map space database, in 2000 project, completed in 2001, which lasted two years. In addition to the main database, the database is composed of geo-map database and geographic content attribute library, geological content attribute library, color library, linear library, pattern library, symbol library and legend library. With the geological content, administrative area, arbitrary space and geographical content of the search and automatic output mapping, automatic drawing of geological symbols, automatic legend and other functions.1: 2.5 million scale digital geological map of the completion of the spatial database to make up for the gaps in the field. It is of great significance to show and improve the degree of geological research in mainland China, to summarize and reflect the overall characteristics of China's geology, and to provide basic geological data for economic construction, land and resources management, geological survey and so on.
DataCite Commons 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
