five

cerc-aai/CHIRP

收藏
Hugging Face2024-06-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/cerc-aai/CHIRP
下载链接
链接失效反馈
官方服务:
资源简介:
CHIRP Benchmark是一个开放式自由形式的多模态评估基准,包含104个开放式问题。这些问题要求模型生成更具创造性和开放性的回答,而不是简单地给出正确答案。该基准涵盖8个不同类别的问题,每个类别都需要理解图像内容,并提供分析和详尽的回答。类别包括描述性分析、推理推理、情境理解、情感和心理理解、伦理评估、抽象理解、创造性和主观分析以及视觉美学评估。评估通过模型响应的成对比较进行,由视觉语言模型或人类评估者选择更优的响应。

CHIRP Benchmark是一个开放式自由形式的多模态评估基准,包含104个开放式问题。这些问题要求模型生成更具创造性和开放性的回答,而不是简单地给出正确答案。该基准涵盖8个不同类别的问题,每个类别都需要理解图像内容,并提供分析和详尽的回答。类别包括描述性分析、推理推理、情境理解、情感和心理理解、伦理评估、抽象理解、创造性和主观分析以及视觉美学评估。评估通过模型响应的成对比较进行,由视觉语言模型或人类评估者选择更优的响应。
提供机构:
cerc-aai
原始信息汇总

CHIRP Benchmark 数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 任务类别: 视觉问答
  • 语言: 英语
  • 数据集名称: CHIRP Benchmark
  • 数据规模: n<1K

数据集描述

CHIRP Benchmark 是一个新的多模态评估基准,包含 104 个开放式问题。这些问题要求模型生成更具开放性、创造性的响应,且没有“正确”答案。数据集包括 8 个不同类别的问题,每个类别都需要理解图像,并提供深入分析和全面响应的机会。

问题类别

  1. 描述性分析: 测试模型识别和描述图像中物理元素的能力,包括颜色、位置、交互以及特定细节的识别。
  2. 推理推理: 考察模型从图像中推断信息的能力,包括预测可能的后续事件、对先前上下文的假设,以及对图像中当前情景的替代情景的假设。
  3. 上下文理解: 测试模型对图像理解中上下文重要性的认识,可能涉及对地理或时间方面的理解。
  4. 情感和心理理解: 衡量模型从图像中判断情感和心理状态的能力,包括解读图像中角色的可见情感表达和对其心理状态的假设。
  5. 伦理评估: 考察模型如何处理图像的伦理影响,能否识别潜在的伦理问题,并根据普遍接受的伦理准则判断图像的公共展示可接受性。
  6. 抽象理解: 评估模型的抽象思维能力,能否识别图像中不明显的潜在主题或信息,并进行哲学解释。
  7. 创造性和主观分析: 衡量模型的创造力和表达对图像主观观点的能力,包括基于图像场景构建扩展叙事和提出个人观点。
  8. 视觉美学评估: 考察模型评估图像视觉美学的能力,包括平衡、对称、色彩构成、光线等方面。

评估方法

通过模型响应的成对比较进行评估,由更强的视觉语言模型 (VLM) 或人类评估者选择偏好响应。评估的潜在提示可在相关论文中找到。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作