google/docci|图像描述数据集|文本生成数据集
收藏数据集概述
数据集名称
- 名称: DOCCI
- 全称: Descriptions of Connected and Contrasting Images
数据集概要
- 描述: DOCCI是一个图像集合,每张图像都配有详细的描述。这些描述解释了图像的关键元素,以及背景、光照和设置等次要信息。图像特别拍摄以帮助评估图像的精确视觉属性,并包含许多与其他图像有主要差异的相关图像。所有描述都是手动标注,以确保它们充分区分每张图像与其对应图像。
支持的任务
- 任务: 文本到图像生成(Text-to-Image)和图像到文本生成(Image-to-Text)
语言
- 语言: 英语
数据集结构
数据实例
- 结构: 每个数据实例包含以下字段:
image
: 图像文件example_id
: 示例的唯一IDdescription
: 与图像关联的文本描述
数据字段
- 字段:
image
: 图像文件example_id
: 示例ID,格式为<SPLIT_NAME>_<EXAMPLE_NUMBER>
description
: 图像的文本描述
数据分割
- 分割:
DOCCI
: 训练集9,647个,测试集5,000个,Qual Dev 100个,Qual Test 100个DOCCI-AAR
: 训练集4,932个,测试集5,000个
数据集创建
数据收集
- 来源: 所有图像由作者及其家人拍摄
标注过程
- 标注: 所有文本描述由人工标注者编写,不依赖任何自动化过程
个人和敏感信息处理
- 处理: 手动审查所有图像以移除个人识别信息(PII),并对检测到的面部、电话号码和URL进行模糊处理
许可证信息
- 许可证: CC BY 4.0

NEPSE Open Data
首个尼泊尔证券交易所(NEPSE)的开源金融数据集,旨在提高尼泊尔资本市场的透明度、学习和创新。
github 收录
IST-3 CT Head Scans
IST-3 CT头部扫描数据集由爱丁堡大学临床脑科学中心创建,包含10,659个CT系列,用于研究颅内动脉钙化的分割。数据集来源于第三届国际中风试验(IST-3),涉及3035名急性缺血性中风患者的非增强CT扫描。数据集创建过程中,通过与模板配准和质量控制,确保了数据的有效性和准确性。该数据集主要用于支持深度学习方法在中风风险评估中的应用,特别是在颅内动脉钙化的自动量化方面。
arXiv 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录
OCRBench v2
OCRBench v2 是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动联合创建的一个大规模双语文本中心基准数据集。该数据集包含10,000条经过人工验证的问答对,涵盖了31种不同的场景,如街景、收据、公式、图表等。数据集通过23个任务评估LMMs在文本识别、文本定位、手写内容提取和逻辑推理等方面的能力。OCRBench v2 的创建过程包括从81个学术数据集中手动筛选数据,并补充私有数据以确保场景的多样性。该数据集主要用于评估LMMs在复杂OCR任务中的性能,旨在解决现有基准在任务多样性、上下文复杂性和规模上的不足。
arXiv 收录
CCI3-Data
CCI 3.0数据集是一个高质量、可靠的中文互联网数据语料库,于2023年11月29日开源。该数据集基于CCI(中文语料库互联网)数据集构建,采用了更严格的数据清洗方法,并进行了数据去重。数据处理规则包括基于关键词的安全过滤、垃圾信息过滤、低质量内容分类模型过滤以及数据集内外的去重。此外,数据集还添加了丰富的元信息,如质量评分和教育水平标签,用户可以利用这些元信息进一步过滤和定制数据集。CCI 3.0语料库的大小约为1000GB,适用于文本生成任务。
huggingface 收录