bethgelab/frequency_determines_performance
收藏Hugging Face2024-04-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/bethgelab/frequency_determines_performance
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含频率估计结果和标记样本,以及构建的字典和其他预训练和下游数据工件。频率估计结果和标记样本存储在`counts_and_indices.zip`文件中,而字典和其他数据工件则以分卷压缩文件的形式发布,用户需要下载并手动合并这些分卷文件以重建原始的110GB大小的压缩文件。合并后,用户可以通过比较MD5哈希值来验证文件的完整性。
该数据集包含频率估计结果和标记样本,以及构建的字典和其他预训练和下游数据工件。频率估计结果和标记样本存储在`counts_and_indices.zip`文件中,而字典和其他数据工件则以分卷压缩文件的形式发布,用户需要下载并手动合并这些分卷文件以重建原始的110GB大小的压缩文件。合并后,用户可以通过比较MD5哈希值来验证文件的完整性。
提供机构:
bethgelab
原始信息汇总
数据集概述
许可证
- 类型: MIT
任务类别
- 类别:
- 零样本分类
- 特征提取
语言支持
- 语言: 英语
数据集大小
- 大小: 小于1千
数据集内容
-
频率估计结果和标记样本:
counts_and_indices.zip包含所有结果的JSON文件(针对仅图像、仅文本和图像-文本搜索的估计频率)以及标记给每个概念的样本索引,适用于LAION400m/LAION-Aesthetics数据集。 -
构建的字典和其他预训练及下游数据制品: 由于所有数据制品的巨大尺寸,我们发布字典和其他特征制品为分割的文件,总大小为110GB,分别命名为
features_zip_part_aa,features_zip_part_ab, 和features_zip_part_ac。下载各个分割文件后,需手动合并以重建原始zip文件。
文件验证
- 合并后的验证: 合并文件后,通过比较md5sum哈希值来验证文件传输的正确性。正确的哈希值应为:
11f6339df3206257efdfc4a54dd7ca60 features.zip



