five

ptx0/free-to-use-signs

收藏
Hugging Face2024-05-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ptx0/free-to-use-signs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个独特的排版数据集合,发布在免费使用的许可下。具体来说,数据集包含952张标牌图像,这些图像由BLIP3(MM-XGEN)进行标注。数据集由@pseudoterminalx策划,语言为英语(EN-GB),许可为The Unlicense。数据集来源于Reddit的`/r/signs`板块。数据集的主要用途包括训练LoRA模型或与其他数据集合并。数据集的创建过程包括使用Easy Scraper浏览器扩展从Reddit收集数据,并通过Python脚本处理成parquet表,最后通过BLIP3进行标注。

该数据集是一个独特的排版数据集合,发布在免费使用的许可下。具体来说,数据集包含952张标牌图像,这些图像由BLIP3(MM-XGEN)进行标注。数据集由@pseudoterminalx策划,语言为英语(EN-GB),许可为The Unlicense。数据集来源于Reddit的`/r/signs`板块。数据集的主要用途包括训练LoRA模型或与其他数据集合并。数据集的创建过程包括使用Easy Scraper浏览器扩展从Reddit收集数据,并通过Python脚本处理成parquet表,最后通过BLIP3进行标注。
提供机构:
ptx0
原始信息汇总

数据集概述

数据集名称

Free-to-Use Signs

数据集内容

该数据集包含952张图片,这些图片为标志图像,并由BLIP3(MM-XGEN)进行标注。

数据集详情

基本信息

  • 数据集数量: 952张图片
  • 语言: 英语(EN-GB)
  • 许可证: The Unlicense

数据来源

  • 来源: Reddit (/r/signs)

数据结构

  • 图片哈希: 使用Python的hash(img.to_bytes())生成
  • 标注: 未截断,偶尔超过77个tokens

数据使用

  • 直接用途: 用于训练LoRA模型,合并到更大的数据集中
  • 超出范围的用途: 不应用于仇恨言论或其他攻击性输出

数据集创建

  • 采集理由: 需要更多独特的排版数据
  • 数据处理: 使用Easy Scraper浏览器扩展收集Reddit URL列表,通过Python脚本处理并合并成单一的parquet表,再通过BLIP3添加标注
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作