openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集

hugging_face2024-05-28 更新2024-06-15 收录

多模态学习

人工智能反馈

下载链接：

https://hf-mirror.com/datasets/openbmb/RLHF-V-Dataset

下载链接

链接失效反馈

资源简介：

RLHF-V-Dataset是用于“RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback”的人类偏好数据。我们收集了大量关于多样化指令的细粒度段级人类修正，包括详细描述和问答指令。数据集总共包含5733对偏好数据。利用我们的数据集可以显著减少模型幻觉34.8%，同时保持信息量。

提供机构：

openbmb

原始信息汇总

数据集卡片 for RLHF-V-Dataset

数据集概述

RLHF-V-Dataset 是用于 "RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback" 的人类偏好数据。该数据集收集了大量细粒度的段级人类修正，涵盖多样化的指令，包括详细描述和问答指令。数据集总共包含 5,733 个偏好对。

数据集信息

许可证: cc-by-nc-4.0
任务类别:
- 文本生成
- 视觉问答
语言: 英语
配置:
- 默认配置: RLHF-V-Dataset.parquet
数据集特征:
- ds_name: 数据集名称，类型为字符串
- image: 图像，类型为图像
- text: 偏好数据，类型为字符串
- origin_dataset: 原始标注数据集，类型为字符串
- origin_split: 每个数据项的元信息，类型为字符串
- idx: 数据索引，类型为整数
- image_path: 图像路径，类型为字符串
数据集名称: RLHF-V-Dataset
数据集大小: 1K<n<10K

数据字段

序号	键	描述
0	`ds_name`	数据集名称
1	`image`	包含路径和字节的字典。如果通过 `load_dataset` 加载，可以自动转换为 PIL 图像
2	`text`	偏好数据。每个数据项包含一个字典，键为 "question", "chosen", 和 "rejected"
3	`origin_dataset`	用于标注的原始数据集，不用于训练
4	`origin_split`	每个数据项的元信息，包括我们用于生成原始答案的模型名称和问题类型（"详细描述" 或 "问答"）
5	`idx`	数据索引
6	`image_path`	图像路径

引用

如果该数据集对您有帮助，请考虑引用我们的论文：

@article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }

@article{yu2024rlaifv, title={RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness}, author={Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

AI搜集汇总

数据集介绍

构建方式

RLHF-V-Dataset的构建基于大量细粒度的段级人类修正数据，涵盖了多样化的指令，包括详细的描述和问答指令。该数据集通过收集5,733个偏好对，旨在提供丰富的多模态反馈，以支持行为对齐和模型幻觉的减少。数据集的构建过程中，特别注重于从日常场景到多样风格和主题的图像类型的扩展，确保数据的广泛性和代表性。

使用方法

使用RLHF-V-Dataset时，用户可以通过HuggingFace的datasets库中的load_dataset函数轻松加载数据集。数据集的结构设计使得用户可以方便地访问图像、文本以及相关的元数据。通过利用这些数据，研究人员和开发者可以训练和优化多模态模型，特别是在减少模型幻觉和提高信息准确性方面。

背景与挑战

背景概述

在多模态语言模型（MLLMs）领域，信任度和行为对齐是关键的研究问题。RLHF-V-Dataset由清华大学和北京智源人工智能研究院等机构的研究人员于2023年创建，旨在通过细粒度的人类反馈来提升模型的信任度。该数据集收集了大量针对多样化指令的细粒度段级人类修正，包含5,733个偏好对，显著减少了模型幻觉，同时保持了信息量。这一研究对多模态语言模型的行为对齐和信任度提升具有重要影响。

当前挑战

RLHF-V-Dataset在构建过程中面临多项挑战。首先，收集细粒度的人类反馈需要高度的专业性和时间成本，确保反馈的准确性和一致性。其次，数据集的多样性要求涵盖多种图像类型和指令类型，增加了数据标注的复杂性。此外，如何有效地将这些反馈整合到模型训练中，以实现显著的性能提升，也是一个技术难题。这些挑战不仅涉及数据收集和处理，还涉及模型训练和评估的复杂性。

常用场景

经典使用场景

在多模态语言模型的研究领域，RLHF-V-Dataset 被广泛应用于视觉问答和文本生成任务中。该数据集通过收集大量细粒度的段级人类修正数据，为模型提供了丰富的反馈信息，从而显著提升了模型的准确性和可信度。其经典使用场景包括但不限于：在视觉问答任务中，模型通过学习数据集中的偏好数据，能够更准确地回答与图像相关的问题；在文本生成任务中，模型利用数据集中的修正信息，生成更加符合人类偏好的文本内容。

解决学术问题

RLHF-V-Dataset 在学术研究中解决了多模态语言模型中的关键问题，即模型幻觉和信息失真。通过引入细粒度的人类修正反馈，该数据集显著减少了模型在生成文本和回答问题时的错误率，提升了模型的可信度和信息保真度。这一改进不仅有助于提高模型的性能，还为多模态学习领域的研究提供了新的方向和方法，推动了该领域的技术进步。

实际应用

在实际应用中，RLHF-V-Dataset 被广泛应用于需要高可信度和准确性的场景，如智能客服、教育辅助和医疗诊断等。在这些领域，模型的准确性和可信度直接关系到用户体验和服务质量。通过使用该数据集训练的模型，能够更准确地理解和回答用户的问题，提供更加可靠的信息支持，从而提升整体服务水平和用户满意度。

数据集最近研究

最新研究方向

在多模态语言模型领域，RLHF-V-Dataset的最新研究方向聚焦于通过细粒度的人类反馈来提升模型的可信度和行为对齐。该数据集不仅包含了大量的细粒度段级人类修正数据，还扩展了图像类型的多样性，涵盖了从日常生活场景到艺术风格和地标等多种主题。最新研究显示，利用RLHF-V-Dataset可以显著减少模型幻觉，同时保持信息丰富性，这对于构建更加可靠和可信的多模态语言模型具有重要意义。此外，该数据集已被应用于MiniCPM-V 2.0等前沿模型中，展示了其在提升模型信任度方面的潜力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国车牌识别数据集（7类，33万张）

这是一个高质量、平衡的中国车牌识别数据集，包含了33万张各类中国车牌的图片。数据集经过精心设计，确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区收录