five

Mozilla/alt-text-validation

收藏
Hugging Face2024-08-07 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Mozilla/alt-text-validation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自不同来源的图像和替代文本。它用于通过checkvite应用程序控制Mozilla的distilvit模型的质量。该应用程序允许用户在图像上测试模型并进行分类。数据集会根据用户反馈进行更新,特别是标记为需要训练的图像将用于微调模型以修正其不准确性。

This dataset contains images and alt text from diverse sources. It is used to validate the quality of Mozilla's DistilViT model via the Checkvite application. This application allows users to test the model on images and perform classification tasks. The dataset is updated based on user feedback, and specifically, images marked as requiring training will be used to fine-tune the model to correct its inaccuracies.
提供机构:
Mozilla
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • dataset: 字符串类型
    • image_id: 64位整数类型
    • image: 图像类型
    • alt_text: 字符串类型
    • license: 字符串类型
    • source: 字符串类型
    • inclusive_alt_text: 字符串类型
    • need_training: 分类标签类型,取值为 no 或 yes
    • verified: 分类标签类型,取值为 no 或 yes
    • rejection_reasons: 字符串序列类型
    • added_by: 字符串类型
    • verified_by: 字符串类型
    • modified_date: 时间戳类型
    • nsfw: 分类标签类型,取值为 no 或 yes
    • golden: 分类标签类型,取值为 no 或 yes
  • 数据分割:

    • train: 包含 2970 个样本,占用 526419074.75 字节
  • 数据集大小:

    • 下载大小: 520104050 字节
    • 数据集大小: 526419074.75 字节

配置信息

  • 默认配置:
    • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作