openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集
收藏数据集卡片 for RLHF-V-Dataset
数据集概述
RLHF-V-Dataset 是用于 "RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback" 的人类偏好数据。该数据集收集了大量细粒度的段级人类修正,涵盖多样化的指令,包括详细描述和问答指令。数据集总共包含 5,733 个偏好对。
数据集信息
- 许可证: cc-by-nc-4.0
- 任务类别:
- 文本生成
- 视觉问答
- 语言: 英语
- 配置:
- 默认配置:
RLHF-V-Dataset.parquet
- 默认配置:
- 数据集特征:
ds_name
: 数据集名称,类型为字符串image
: 图像,类型为图像text
: 偏好数据,类型为字符串origin_dataset
: 原始标注数据集,类型为字符串origin_split
: 每个数据项的元信息,类型为字符串idx
: 数据索引,类型为整数image_path
: 图像路径,类型为字符串
- 数据集名称: RLHF-V-Dataset
- 数据集大小: 1K<n<10K
数据字段
序号 | 键 | 描述 |
---|---|---|
0 | ds_name |
数据集名称 |
1 | image |
包含路径和字节的字典。如果通过 load_dataset 加载,可以自动转换为 PIL 图像 |
2 | text |
偏好数据。每个数据项包含一个字典,键为 "question", "chosen", 和 "rejected" |
3 | origin_dataset |
用于标注的原始数据集,不用于训练 |
4 | origin_split |
每个数据项的元信息,包括我们用于生成原始答案的模型名称和问题类型("详细描述" 或 "问答") |
5 | idx |
数据索引 |
6 | image_path |
图像路径 |
引用
如果该数据集对您有帮助,请考虑引用我们的论文:
@article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }
@article{yu2024rlaifv, title={RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness}, author={Yu, Tianyu and Zhang, Haoye and Yao, Yuan and Dang, Yunkai and Chen, Da and Lu, Xiaoman and Cui, Ganqu and He, Taiwen and Liu, Zhiyuan and Chua, Tat-Seng and Sun, Maosong}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录