five

jingzi/CIMD

收藏
Hugging Face2024-03-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/jingzi/CIMD
下载链接
链接失效反馈
官方服务:
资源简介:
Chinese Instruction Multimodal Data (CIMD) 数据集包含一百万个中文图像-文本对,主要用于图像描述和视觉问答任务。数据集通过随机抽样Wanjuan和Wukong数据集的图像,并利用Gemini Pro Vision API生成详细的图像描述和基于描述的复杂问答对。此外,数据集还进行了后处理,以确保数据质量,包括过滤掉文本重复和内容不合理的图像-文本对。

Chinese Instruction Multimodal Data (CIMD) 数据集包含一百万个中文图像-文本对,主要用于图像描述和视觉问答任务。数据集通过随机抽样Wanjuan和Wukong数据集的图像,并利用Gemini Pro Vision API生成详细的图像描述和基于描述的复杂问答对。此外,数据集还进行了后处理,以确保数据质量,包括过滤掉文本重复和内容不合理的图像-文本对。
提供机构:
jingzi
原始信息汇总

中文指令多模态数据集 (CIMD)

数据集概述

  • 总数据量:包含一百万个中文图像-文本对。
  • 内容类型:详细图像描述和视觉问答。

数据生成流程

  1. 图像来源
  2. 详细描述生成
  3. 问答对生成
    • 基于生成的描述,使用Gemini API生成复杂问题,并再次使用Gemini API生成详细答案。
    • 对于多轮对话,下一轮问题基于对话历史生成。
  4. 后处理
    • 剔除文本中重复多次的图像-文本对。
    • 过滤由Gemini生成的可能存在幻觉的图像-文本对。

数据集详细信息

图像来源 图像数量 描述数量 单轮问答对 多轮问答对 总图像-文本对
Wanjuan 212,326 200,917 539,371 65,005 805,293
Wukong 66,570 106,368 107,991 0 214,359
总计 278,896 307,285 647,362 65,005 1,019,652

样本示例

  • 单轮对话与详细描述(来自Wanjuan数据集的图像): json { "id": "4fdb831b09ab87f3dfa758cbb3693eb2dec41b7a5cb0eeb55a6eb5faae2c7fb1_2", "image": "wanjuan/4fdb831b09ab87f3dfa758cbb3693eb2dec41b7a5cb0eeb55a6eb5faae2c7fb1.jpg", "conversations": [ { "from": "human", "value": " 这些屋顶的坡度各不相同,为什么有些屋顶的坡度较大,而有些屋顶的坡度较小呢? <image>" }, { "from": "gpt", "value": " 屋顶的坡度与当地的气候条件有关。坡度大的屋顶可以更快地排水,更适合于多雨地区。坡度小的屋顶更适合于少雨地区。" } ], "detailed_caption": " 这是一组中国传统民居的屋顶图片。屋顶由青瓦铺成,屋脊上有各种装饰。屋顶的坡度很大,有利于排水。屋顶上还有许多小老虎,用以辟邪。" }

  • 多轮对话无详细描述(来自Wanjuan数据集的图像): json { "id": "787add42091e8f7f2ec23ab48fcbdf2201859fd7dd9c6ba95ae373aa11a7f9c8_0", "image": "wanjuan/787add42091e8f7f2ec23ab48fcbdf2201859fd7dd9c6ba95ae373aa11a7f9c8.jpg", "conversations": [ { "from": "human", "value": " 这张图片是一套咖啡店的VI设计,包括了名片、信纸、封套、宣传册。请问这套设计体现了咖啡店的哪些特色? <image>" }, { "from": "gpt", "value": " 这套咖啡店的VI设计体现了咖啡店的以下特色:

  1. 现代感:这套设计使用了现代感十足的几何图形和线条,给人以时尚、摩登的感觉。
  2. 简约性:这套设计并没有采用过多的装饰元素,而是以简约的风格为主,给人以干净、清爽的感觉。
  3. 自然感:这套设计使用了大量的留白,并且在名片和信纸上都运用了大面积的绿色,给人以自然、清新之感。
  4. 趣味性:这套设计在一些细节之处加入了一些趣味性的元素,比如在名片的背面加入了一个小插图,在信纸的抬头处加入了一个咖啡杯的图案,这些小细节为这套设计增添了些许趣味。" }, { "from": "human", "value": " 好的,我根据你的描述,给你设计了一个新的问题:

这套咖啡店的VI设计使用了哪些颜色?这些颜色分别代表了什么?" }, { "from": "gpt", "value": " 这套咖啡店的VI设计使用了黄色、绿色和黑色。黄色代表着阳光、活力和热情;绿色代表着自然、清新和健康;黑色代表着沉稳、高贵和典雅。这三种颜色搭配在一起,给人以一种非常舒适的感觉,同时也很好地体现了咖啡店的特色。" } ], "detailed_caption": "" }

  • 单轮对话与详细描述(来自Wukong数据集的图像): json { "id": "b97b0ec2d43f84d2c424689db9592d26_1", "image": "wukong/b97b0ec2d43f84d2c424689db9592d26.jpg", "conversations": [ { "from": "human", "value": " 为什么熊猫头上会有一个蝴蝶结? <image>" }, { "from": "gpt", "value": " 图片是一张熊猫头的表情包,它头上有一个粉色的蝴蝶结。在现实生活中,熊猫头上一般不会有蝴蝶结。但在图片中,熊猫头上有一个蝴蝶结,这可能是为了装饰,或者是为了搞笑。" } ], "detailed_caption": " 这张图片是一张熊猫头的表情包,它头上有一个粉色的蝴蝶结,表情看起来很滑稽。图片的文字是“谢谢你啊,这么忙还来亲自骂我”,语气中带着一丝无奈和自嘲。" }
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作