dwb2023/filtered-coyo-700M-beta|图像-文本对数据集|视觉与语言任务数据集
收藏数据集概述
数据集名称
- pretty_name: filterred-coyo-700m-beta
语言
- 语言: 英语
- 语言创建者: 其他
许可证
- 许可证: CC-BY-4.0
多语言性
- 多语言性: 单语种
大小分类
- 大小分类: 100M<n<1B
来源数据集
- 来源数据集: 原始数据
标签
- 标签: 图像-文本对, 医学
任务类别
- 任务类别: 文本到图像, 图像到文本, 零样本分类
任务ID
- 任务ID: 图像字幕生成
数据集结构
数据实例
-
描述: 每个实例代表单一的图像-文本对信息,包含多个元属性。
-
示例:
{ id: 841814333321, url: https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg, text: A Pomsky dog sitting and smiling in field of orange flowers, ... }
数据字段
- 字段列表:
名称 类型 描述 id long 唯一64位整数ID url string 图像URL text string 文本 width integer 图像宽度 height integer 图像高度 image_phash string 图像的感知哈希值 ... ... ...
数据分割
- 描述: 数据未分割,评估预期在更广泛使用的下游任务上进行。
数据集创建
来源数据
- 初始数据收集和规范化:
- 从Common Crawl收集约10亿对alt-text和图像源。
- 通过图像和/或文本级过滤过程消除无信息对。
注释
- 注释过程: 完全自动化,无需人工注释。
- 注释者: 无人工注释。
个人和敏感信息
- 免责声明与内容警告: 未提供具体信息。
许可证信息
- 许可证: CC-BY-4.0
- 使用义务: 使用时需遵守许可证指南,违规可能面临法律行动。
引用信息
-
引用格式:
@misc{kakaobrain2022coyo-700m, title = {COYO-700M: Image-Text Pair Dataset}, author = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim}, year = {2022}, howpublished = {url{https://github.com/kakaobrain/coyo-dataset}}, }
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录