ptx0/free-to-use-signs
收藏Hugging Face2024-05-22 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ptx0/free-to-use-signs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个独特的排版数据集合,发布在免费使用的许可下。具体来说,数据集包含952张标牌图像,这些图像由BLIP3(MM-XGEN)进行标注。数据集由@pseudoterminalx策划,语言为英语(EN-GB),许可为The Unlicense。数据集来源于Reddit的`/r/signs`板块。数据集的主要用途包括训练LoRA模型或与其他数据集合并。数据集的创建过程包括使用Easy Scraper浏览器扩展从Reddit收集数据,并通过Python脚本处理成parquet表,最后通过BLIP3进行标注。
该数据集是一个独特的排版数据集合,发布在免费使用的许可下。具体来说,数据集包含952张标牌图像,这些图像由BLIP3(MM-XGEN)进行标注。数据集由@pseudoterminalx策划,语言为英语(EN-GB),许可为The Unlicense。数据集来源于Reddit的`/r/signs`板块。数据集的主要用途包括训练LoRA模型或与其他数据集合并。数据集的创建过程包括使用Easy Scraper浏览器扩展从Reddit收集数据,并通过Python脚本处理成parquet表,最后通过BLIP3进行标注。
提供机构:
ptx0
原始信息汇总
数据集概述
数据集名称
Free-to-Use Signs
数据集内容
该数据集包含952张图片,这些图片为标志图像,并由BLIP3(MM-XGEN)进行标注。
数据集详情
基本信息
- 数据集数量: 952张图片
- 语言: 英语(EN-GB)
- 许可证: The Unlicense
数据来源
- 来源: Reddit (
/r/signs)
数据结构
- 图片哈希: 使用Python的
hash(img.to_bytes())生成 - 标注: 未截断,偶尔超过77个tokens
数据使用
- 直接用途: 用于训练LoRA模型,合并到更大的数据集中
- 超出范围的用途: 不应用于仇恨言论或其他攻击性输出
数据集创建
- 采集理由: 需要更多独特的排版数据
- 数据处理: 使用
Easy Scraper浏览器扩展收集Reddit URL列表,通过Python脚本处理并合并成单一的parquet表,再通过BLIP3添加标注



