MM-RLHF 多模态偏好对齐数据集
收藏超神经2025-02-26 更新2025-02-22 收录
下载链接:
https://hyper.ai/cn/datasets/37918
下载链接
链接失效反馈官方服务:
资源简介:
MM-RLHF (Multimodal Reinforcement Learning from Human Feedback) 是一个高质量、细粒度的多模态数据集,相关论文成果为「MM-RLHF: The Next Step Forward in Multimodal LLM Alignment」,由中国科学院自动化研究所 (CASIA) 于 2025 年首次发布在 arXiv 。该数据集旨在推动多模态大语言模型 (MLLM) 的对齐研究,解决模型在实际应用中的真实性 (truthfulness) 、安全性 (safety) 以及与人类偏好的对齐问题。
MM-RLHF (Multimodal Reinforcement Learning from Human Feedback) is a high-quality, fine-grained multimodal dataset. Its associated research paper is titled "MM-RLHF: The Next Step Forward in Multimodal LLM Alignment", and it was first released on arXiv in 2025 by the Institute of Automation, Chinese Academy of Sciences (CASIA). This dataset aims to advance alignment research for multimodal large language models (MLLMs), addressing the issues of model truthfulness, safety, and alignment with human preferences in real-world applications.
创建时间:
2025-02-19
搜集汇总
数据集介绍

背景与挑战
背景概述
MM-RLHF 多模态偏好对齐数据集是一个高质量、细粒度的多模态数据集,包含12万对人工注释的偏好比较数据,覆盖图像理解、视频分析和多模态安全三个领域,旨在推动多模态大语言模型的对齐研究。该数据集由中国科学院自动化研究所于2025年发布,数据量达55.33 GB,采用Apache 2.0许可证。
以上内容由遇见数据集搜集并总结生成



