five

neoneye/simon-arc-rle-image-v9

收藏
Hugging Face2024-07-14 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/neoneye/simon-arc-rle-image-v9
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于图像到文本和文本到图像任务的英语数据集,包含多个版本,每个版本针对不同的图像大小和任务进行了优化。数据集的主要特点包括图像大小在1到30像素之间,任务涉及旋转图像、颜色计数、邻居像素匹配等。数据集的目的是通过调整图像大小和任务类型,优化大语言模型在处理这些任务时的表现。

The dataset, named simons ARC (abstraction & reasoning corpus) RLE (run-length-encoding) image version 9, is primarily used for image-to-text and text-to-image tasks. It consists of multiple versions, each optimized for specific issues such as image rotation, color counting, and matching neighboring pixels. The image sizes range from 1 to 30 pixels, aiming to help the LLM better understand and process image data through continuous optimization.
提供机构:
neoneye
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 图像到文本
    • 文本到图像
  • 语言: 英语
  • 名称: simons ARC (abstraction & reasoning corpus) RLE (run-length-encoding) image version 9
  • 大小类别: 10K<n<100K
  • 配置:
    • 配置名称: default
    • 数据文件:
      • 分割: train
      • 路径: data.jsonl

版本更新

Version 1

  • 描述: 数据集项类型均匀分布。LLM在某些类型上表现良好,但旋转图像存在问题。
  • 图像尺寸: 1到10像素

Version 2

  • 描述: 大部分数据集项为旋转图像,以解决LLM在此类图像上的困难。
  • 图像尺寸: 1到5像素
  • 效果: 验证损失有所改善。

Version 3

  • 描述: 主要关注count_same_color_as_center_with_8neighbors_nowrap,图像尺寸为1-6像素。
  • 问题: LLM在count_same_color_as_center_with_8neighbors_nowrap上仍有困难。

Version 4

  • 描述: 再次尝试使用更小的图像,尺寸为1到5像素。
  • 新增: same_color_inside_3x3_area_nowrap,检查周围像素是否同意同一颜色。
  • 效果: 略有帮助,但计数邻居仍不理想。

Version 5

  • 描述: 新增pixels_with_k_matching_neighbors,k参数在1-8之间。
  • 图像尺寸: 1-6像素
  • 效果: 有助于改善邻居像素计数。

Version 6

  • 描述: 所有变换权重相同。
  • 图像尺寸: 1-11像素

Version 7

  • 描述: 关注直方图和k近邻,图像尺寸为1-12像素。
  • 效果: LLM似乎已经掌握。

Version 8

  • 描述: 关注直方图和k近邻,图像尺寸为5-20像素。

Version 9

  • 描述: 关注直方图和k近邻,图像尺寸为10-30像素。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作