openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集
收藏数据集卡片 for RLHF-V-Dataset
数据集概述
RLHF-V-Dataset 是用于 "RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback" 的人类偏好数据。该数据集收集了大量细粒度的段级人类修正,涵盖多样化的指令,包括详细描述和问答指令。数据集总共包含 5,733 个偏好对。
数据集信息
- 许可证: cc-by-nc-4.0
- 任务类别:
- 文本生成
- 视觉问答
- 语言: 英语
- 配置:
- 默认配置:
RLHF-V-Dataset.parquet
- 默认配置:
- 数据集特征:
ds_name: 数据集名称,类型为字符串image: 图像,类型为图像text: 偏好数据,类型为字符串origin_dataset: 原始标注数据集,类型为字符串origin_split: 每个数据项的元信息,类型为字符串idx: 数据索引,类型为整数image_path: 图像路径,类型为字符串
- 数据集名称: RLHF-V-Dataset
- 数据集大小: 1K<n<10K
数据字段
| 序号 | 键 | 描述 |
|---|---|---|
| 0 | ds_name |
数据集名称 |
| 1 | image |
包含路径和字节的字典。如果通过 load_dataset 加载,可以自动转换为 PIL 图像 |
| 2 | text |
偏好数据。每个数据项包含一个字典,键为 "question", "chosen", 和 "rejected" |
| 3 | origin_dataset |
用于标注的原始数据集,不用于训练 |
| 4 | origin_split |
每个数据项的元信息,包括我们用于生成原始答案的模型名称和问题类型("详细描述" 或 "问答") |
| 5 | idx |
数据索引 |
| 6 | image_path |
图像路径 |
引用
如果该数据集对您有帮助,请考虑引用我们的论文:
@article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }
@article{yu2024rlaifv, title={RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness}, author={Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
MIDV-500
该数据集包含使用移动设备拍摄的不同文档图像,这些图像通常具有投影变形。数据集分为训练和测试两部分,其中训练部分包含30种文档类型,测试部分包含20种,在应用神经网络之前,所有图像都被缩放到统一的宽度,宽度为400像素。该数据集的任务是进行消失点检测。
arXiv 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
DIOR
“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。
OpenDataLab 收录
