cerc-aai/CHIRP
收藏Hugging Face2024-06-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/cerc-aai/CHIRP
下载链接
链接失效反馈官方服务:
资源简介:
CHIRP Benchmark是一个开放式自由形式的多模态评估基准,包含104个开放式问题。这些问题要求模型生成更具创造性和开放性的回答,而不是简单地给出正确答案。该基准涵盖8个不同类别的问题,每个类别都需要理解图像内容,并提供分析和详尽的回答。类别包括描述性分析、推理推理、情境理解、情感和心理理解、伦理评估、抽象理解、创造性和主观分析以及视觉美学评估。评估通过模型响应的成对比较进行,由视觉语言模型或人类评估者选择更优的响应。
CHIRP Benchmark是一个开放式自由形式的多模态评估基准,包含104个开放式问题。这些问题要求模型生成更具创造性和开放性的回答,而不是简单地给出正确答案。该基准涵盖8个不同类别的问题,每个类别都需要理解图像内容,并提供分析和详尽的回答。类别包括描述性分析、推理推理、情境理解、情感和心理理解、伦理评估、抽象理解、创造性和主观分析以及视觉美学评估。评估通过模型响应的成对比较进行,由视觉语言模型或人类评估者选择更优的响应。
提供机构:
cerc-aai
原始信息汇总
CHIRP Benchmark 数据集概述
基本信息
- 许可证: cc-by-4.0
- 任务类别: 视觉问答
- 语言: 英语
- 数据集名称: CHIRP Benchmark
- 数据规模: n<1K
数据集描述
CHIRP Benchmark 是一个新的多模态评估基准,包含 104 个开放式问题。这些问题要求模型生成更具开放性、创造性的响应,且没有“正确”答案。数据集包括 8 个不同类别的问题,每个类别都需要理解图像,并提供深入分析和全面响应的机会。
问题类别
- 描述性分析: 测试模型识别和描述图像中物理元素的能力,包括颜色、位置、交互以及特定细节的识别。
- 推理推理: 考察模型从图像中推断信息的能力,包括预测可能的后续事件、对先前上下文的假设,以及对图像中当前情景的替代情景的假设。
- 上下文理解: 测试模型对图像理解中上下文重要性的认识,可能涉及对地理或时间方面的理解。
- 情感和心理理解: 衡量模型从图像中判断情感和心理状态的能力,包括解读图像中角色的可见情感表达和对其心理状态的假设。
- 伦理评估: 考察模型如何处理图像的伦理影响,能否识别潜在的伦理问题,并根据普遍接受的伦理准则判断图像的公共展示可接受性。
- 抽象理解: 评估模型的抽象思维能力,能否识别图像中不明显的潜在主题或信息,并进行哲学解释。
- 创造性和主观分析: 衡量模型的创造力和表达对图像主观观点的能力,包括基于图像场景构建扩展叙事和提出个人观点。
- 视觉美学评估: 考察模型评估图像视觉美学的能力,包括平衡、对称、色彩构成、光线等方面。
评估方法
通过模型响应的成对比较进行评估,由更强的视觉语言模型 (VLM) 或人类评估者选择偏好响应。评估的潜在提示可在相关论文中找到。



