five

bethgelab/frequency_determines_performance

收藏
Hugging Face2024-04-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/bethgelab/frequency_determines_performance
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含频率估计结果和标记样本,以及构建的字典和其他预训练和下游数据工件。频率估计结果和标记样本存储在`counts_and_indices.zip`文件中,而字典和其他数据工件则以分卷压缩文件的形式发布,用户需要下载并手动合并这些分卷文件以重建原始的110GB大小的压缩文件。合并后,用户可以通过比较MD5哈希值来验证文件的完整性。

该数据集包含频率估计结果和标记样本,以及构建的字典和其他预训练和下游数据工件。频率估计结果和标记样本存储在`counts_and_indices.zip`文件中,而字典和其他数据工件则以分卷压缩文件的形式发布,用户需要下载并手动合并这些分卷文件以重建原始的110GB大小的压缩文件。合并后,用户可以通过比较MD5哈希值来验证文件的完整性。
提供机构:
bethgelab
原始信息汇总

数据集概述

许可证

  • 类型: MIT

任务类别

  • 类别:
    • 零样本分类
    • 特征提取

语言支持

  • 语言: 英语

数据集大小

  • 大小: 小于1千

数据集内容

  • 频率估计结果和标记样本: counts_and_indices.zip 包含所有结果的JSON文件(针对仅图像、仅文本和图像-文本搜索的估计频率)以及标记给每个概念的样本索引,适用于LAION400m/LAION-Aesthetics数据集。

  • 构建的字典和其他预训练及下游数据制品: 由于所有数据制品的巨大尺寸,我们发布字典和其他特征制品为分割的文件,总大小为110GB,分别命名为features_zip_part_aa, features_zip_part_ab, 和 features_zip_part_ac。下载各个分割文件后,需手动合并以重建原始zip文件。

文件验证

  • 合并后的验证: 合并文件后,通过比较md5sum哈希值来验证文件传输的正确性。正确的哈希值应为:11f6339df3206257efdfc4a54dd7ca60 features.zip
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作