cerc-aai/CHIRP

Name: cerc-aai/CHIRP
Creator: cerc-aai
Published: 2024-06-13 04:35:31
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/cerc-aai/CHIRP

下载链接

链接失效反馈

官方服务：

资源简介：

CHIRP Benchmark是一个开放式自由形式的多模态评估基准，包含104个开放式问题。这些问题要求模型生成更具创造性和开放性的回答，而不是简单地给出正确答案。该基准涵盖8个不同类别的问题，每个类别都需要理解图像内容，并提供分析和详尽的回答。类别包括描述性分析、推理推理、情境理解、情感和心理理解、伦理评估、抽象理解、创造性和主观分析以及视觉美学评估。评估通过模型响应的成对比较进行，由视觉语言模型或人类评估者选择更优的响应。

提供机构：

cerc-aai

原始信息汇总

CHIRP Benchmark 数据集概述

基本信息

许可证: cc-by-4.0
任务类别: 视觉问答
语言: 英语
数据集名称: CHIRP Benchmark
数据规模: n<1K

数据集描述

CHIRP Benchmark 是一个新的多模态评估基准，包含 104 个开放式问题。这些问题要求模型生成更具开放性、创造性的响应，且没有“正确”答案。数据集包括 8 个不同类别的问题，每个类别都需要理解图像，并提供深入分析和全面响应的机会。

问题类别

描述性分析: 测试模型识别和描述图像中物理元素的能力，包括颜色、位置、交互以及特定细节的识别。
推理推理: 考察模型从图像中推断信息的能力，包括预测可能的后续事件、对先前上下文的假设，以及对图像中当前情景的替代情景的假设。
上下文理解: 测试模型对图像理解中上下文重要性的认识，可能涉及对地理或时间方面的理解。
情感和心理理解: 衡量模型从图像中判断情感和心理状态的能力，包括解读图像中角色的可见情感表达和对其心理状态的假设。
伦理评估: 考察模型如何处理图像的伦理影响，能否识别潜在的伦理问题，并根据普遍接受的伦理准则判断图像的公共展示可接受性。
抽象理解: 评估模型的抽象思维能力，能否识别图像中不明显的潜在主题或信息，并进行哲学解释。
创造性和主观分析: 衡量模型的创造力和表达对图像主观观点的能力，包括基于图像场景构建扩展叙事和提出个人观点。
视觉美学评估: 考察模型评估图像视觉美学的能力，包括平衡、对称、色彩构成、光线等方面。

评估方法

通过模型响应的成对比较进行评估，由更强的视觉语言模型 (VLM) 或人类评估者选择偏好响应。评估的潜在提示可在相关论文中找到。

5,000+

优质数据集

54 个

任务类型

进入经典数据集