five

dwb2023/filtered-coyo-700M-beta|图像-文本对数据集|视觉与语言任务数据集

收藏
hugging_face2024-05-26 更新2024-06-12 收录
图像-文本对
视觉与语言任务
下载链接:
https://hf-mirror.com/datasets/dwb2023/filtered-coyo-700M-beta
下载链接
链接失效反馈
资源简介:
COYO-700M数据集是一个包含约700M图像-文本对的大规模数据集,主要用于图像到文本、文本到图像以及零样本分类等任务。数据集从Common Crawl中收集了约10亿对图像和文本数据,经过多层次的过滤和清理,最终形成700M的数据集。每个数据实例包含图像URL、文本描述、图像尺寸、图像的感知哈希值、文本长度、词数、BERT和GPT的token数、图像中的人脸数、CLIP模型的相似度评分、NSFW评分、水印评分以及美学评分等元属性。数据集未进行分割,因为预期评估将在更广泛使用的下游任务上进行。数据集的使用受CC-BY-4.0许可约束。

COYO-700M数据集是一个包含约700M图像-文本对的大规模数据集,主要用于图像到文本、文本到图像以及零样本分类等任务。数据集从Common Crawl中收集了约10亿对图像和文本数据,经过多层次的过滤和清理,最终形成700M的数据集。每个数据实例包含图像URL、文本描述、图像尺寸、图像的感知哈希值、文本长度、词数、BERT和GPT的token数、图像中的人脸数、CLIP模型的相似度评分、NSFW评分、水印评分以及美学评分等元属性。数据集未进行分割,因为预期评估将在更广泛使用的下游任务上进行。数据集的使用受CC-BY-4.0许可约束。
提供机构:
dwb2023
原始信息汇总

数据集概述

数据集名称

  • pretty_name: filterred-coyo-700m-beta

语言

  • 语言: 英语
  • 语言创建者: 其他

许可证

  • 许可证: CC-BY-4.0

多语言性

  • 多语言性: 单语种

大小分类

  • 大小分类: 100M<n<1B

来源数据集

  • 来源数据集: 原始数据

标签

  • 标签: 图像-文本对, 医学

任务类别

  • 任务类别: 文本到图像, 图像到文本, 零样本分类

任务ID

  • 任务ID: 图像字幕生成

数据集结构

数据实例

  • 描述: 每个实例代表单一的图像-文本对信息,包含多个元属性。

  • 示例:

    { id: 841814333321, url: https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg, text: A Pomsky dog sitting and smiling in field of orange flowers, ... }

数据字段

  • 字段列表:
    名称 类型 描述
    id long 唯一64位整数ID
    url string 图像URL
    text string 文本
    width integer 图像宽度
    height integer 图像高度
    image_phash string 图像的感知哈希值
    ... ... ...

数据分割

  • 描述: 数据未分割,评估预期在更广泛使用的下游任务上进行。

数据集创建

来源数据

  • 初始数据收集和规范化:
    • 从Common Crawl收集约10亿对alt-text和图像源。
    • 通过图像和/或文本级过滤过程消除无信息对。

注释

  • 注释过程: 完全自动化,无需人工注释。
  • 注释者: 无人工注释。

个人和敏感信息

  • 免责声明与内容警告: 未提供具体信息。

许可证信息

  • 许可证: CC-BY-4.0
  • 使用义务: 使用时需遵守许可证指南,违规可能面临法律行动。

引用信息

  • 引用格式:

    @misc{kakaobrain2022coyo-700m, title = {COYO-700M: Image-Text Pair Dataset}, author = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim}, year = {2022}, howpublished = {url{https://github.com/kakaobrain/coyo-dataset}}, }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录