Anonymous1234565/CHIRP
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Anonymous1234565/CHIRP
下载链接
链接失效反馈官方服务:
资源简介:
CHIRP Benchmark是一个新的多模态评估基准,包含104个开放式问题。这些问题要求模型生成更具开放性、创造性的回答,且没有“正确”答案。数据集包含8个不同类别的问题,每个类别都需要理解图像,并提供深入分析的机会。这些类别包括描述性分析、推理推理、上下文理解、情感和心理理解、伦理评估、抽象理解、创意和主观分析以及视觉美学评估。评估通过模型响应的成对比较来进行,由更强的视觉语言模型或人类评估者选择更优的响应。
CHIRP Benchmark是一个新的多模态评估基准,包含104个开放式问题。这些问题要求模型生成更具开放性、创造性的回答,且没有“正确”答案。数据集包含8个不同类别的问题,每个类别都需要理解图像,并提供深入分析的机会。这些类别包括描述性分析、推理推理、上下文理解、情感和心理理解、伦理评估、抽象理解、创意和主观分析以及视觉美学评估。评估通过模型响应的成对比较来进行,由更强的视觉语言模型或人类评估者选择更优的响应。
提供机构:
Anonymous1234565



