five

PhyBench|文本到图像评估数据集|物理知识应用数据集

收藏
arXiv2024-06-18 更新2024-06-19 收录
文本到图像评估
物理知识应用
下载链接:
https://github.com/OpenGVLab/PhyBench
下载链接
链接失效反馈
资源简介:
PhyBench是由上海人工智能实验室创建的综合性T2I评估数据集,包含700个提示,涵盖力学、光学、热力学和材料属性四大类物理知识,共涉及31种不同的物理场景。该数据集旨在评估文本到图像模型在遵循物理常识方面的能力,特别是在世界模拟和日常任务中的应用。PhyBench通过严格的提示收集流程,确保评估集中在图像背后的物理知识,而非图像与提示的简单对齐。数据集的应用领域包括提升T2I模型在物理常识推理方面的性能,推动更接近真实世界模拟的技术发展。
提供机构:
上海人工智能实验室
创建时间:
2024-06-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
PhyBench数据集的构建旨在评估文本到图像模型对物理常识的理解。该数据集由700个提示组成,分为四大类:力学、光学、热力学和材料特性,涵盖了31种不同的物理场景。这些提示是通过使用教科书和GPT-4等工具,对物理场景进行细致的描述和扩展而创建的。每个提示都旨在隐含地评估模型是否能够独立地识别出背后的物理常识。此外,数据集的构建还考虑到了场景的简单性,以确保图像能够被文本到图像模型生成,同时又不失评价的深度。
特点
PhyBench数据集的主要特点在于其全面性和隐含性。全面性体现在它涵盖了广泛的物理常识,包括力学、光学、热力学和材料特性,以及31种具体的物理场景。隐含性则体现在提示的设计上,它们不直接揭示背后的物理知识,而是要求模型自行理解和应用这些知识。此外,数据集还通过使用GPT-4进行评估,确保了评价的准确性和与人类评价的高度相关性。
使用方法
PhyBench数据集的使用方法主要包括两个方面:生成图像和评估模型。首先,使用文本到图像模型根据数据集中的提示生成图像。然后,使用PhyEvaler评估框架对生成的图像进行评分。PhyEvaler框架利用GPT-4来为每个提示生成详细的评分标准,并据此对图像进行评分。评估结果将反映模型在生成符合物理常识的图像方面的能力。此外,还可以通过重写提示来提高模型的性能,这可以通过使用GPT-4来生成包含物理现象结果的显式提示来实现。
背景与挑战
背景概述
PhyBench数据集是一项重要的研究工具,旨在评估文本到图像(T2I)模型在生成符合物理常识的图像方面的能力。该数据集由上海人工智能实验室的OpenGVLab团队与上海交通大学、同济大学、香港大学、南京大学和密歇根大学的合作研究人员共同创建。PhyBench的构建是为了解决当前T2I模型在生成符合物理常识的图像方面的不足,这些图像对于构建现实世界的模拟器和日常任务至关重要。该数据集包括700个提示,涵盖力学、光学、热力学和材料特性四大类,共包含31个不同的物理场景。通过对6个流行的T2I模型进行评估,PhyBench揭示了当前模型在理解物理常识方面的局限性,并强调了在T2I模型中融入物理知识的必要性。
当前挑战
PhyBench数据集面临的挑战主要包括:1) T2I模型在生成符合物理常识的图像方面的挑战;2) 构建过程中所遇到的挑战。具体来说,当前T2I模型在理解物理常识方面存在显著差距,尤其是在力学、热力学和材料特性等场景中。此外,构建PhyBench数据集的挑战在于如何确保提示的隐含性,以便评估模型是否能够独立地识别物理常识,同时保证场景的简单性,以便模型能够生成相应的图像。为了应对这些挑战,研究人员采用了严格的流程来收集和验证数据集,并开发了PhyEvaler评估框架,以更准确地评估模型在PhyBench上的表现。
常用场景
经典使用场景
PhyBench数据集主要用于评估文本到图像(T2I)模型在生成图像时对物理常识的理解程度。该数据集包含了700个提示,涵盖了力学、光学、热力学和材料属性四大类,共31种不同的物理场景。通过评估T2I模型在这些场景下的表现,研究人员可以了解模型对物理常识的掌握程度,从而推动模型在物理常识理解方面的发展。
衍生相关工作
PhyBench数据集的提出,促进了T2I模型在物理常识理解方面的发展。基于PhyBench数据集,研究人员可以开展更多关于T2I模型物理常识理解的研究,例如开发新的评估方法、改进模型训练方法等。此外,PhyBench数据集还可以为其他领域的模型评估提供参考,例如视频生成、3D场景生成等。
数据集最近研究
最新研究方向
在图像生成领域,文本到图像(T2I)模型在生成图像方面取得了显著进展。然而,这些模型往往无法生成符合物理常识的图像,这在世界模拟和日常任务中是一个重要的能力。为了解决这个问题,我们引入了PhyBench,一个全面的T2I评估数据集,包括700个提示,涵盖四个主要类别:力学、光学、热力学和材料属性,涵盖了31个不同的物理场景。我们评估了6个突出的T2I模型,包括专有的DALLE3和Gemini,并表明将物理原理纳入提示可以增强模型生成物理准确图像的能力。我们的发现揭示了:1)即使是先进的模型在多种物理场景中也会出错,除了光学;2)GPT-4o,具有项目特定的评分说明,有效地评估了模型对物理常识的理解,与人类评估紧密一致;3)当前的T2I模型主要关注文本到图像的翻译,缺乏对物理常识的深刻推理。我们主张更加关注T2I模型内在的知识,而不仅仅是将它们作为图像生成工具。
相关研究论文
  • 1
    PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models上海人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录