RLAIF-V-Dataset - 大规模多模态偏好数据集|多模态学习数据集|模型训练数据集
收藏数据集概述:RLAIF-V-Dataset
基本信息
- 许可证:CC-BY-NC-4.0
- 任务类别:视觉问答(Visual Question Answering)
- 语言:英语(en)
- 数据集名称:RLAIF-V-Dataset
- 数据规模:10K < n < 100K
数据集特点
- 数据字段:
ds_name:数据集名称image:包含路径和字节的字典,可自动转换为PIL图像question:输入查询(针对多模态大语言模型)chosen:针对问题的优选回答rejected:针对问题的拒绝回答origin_dataset:图像或问题的原始数据集origin_split:元信息(包括生成回答对的模型、标注模型、问题类型等)idx:数据索引image_path:图像路径
数据集摘要
- 规模:包含83,132个偏好对
- 数据来源:多样化的数据集(MSCOCO、ShareGPT-4V、MovieNet、Google Landmark v2、VQA v2、OKVQA、TextVQA等)
- 用途:通过训练,模型可达到优于开源和专有模型的信任度
相关资源
- 训练模型:
- MiniCPM-V系列:具有与GPT-4V相当性能的端侧多模态大语言模型
- RLAIF-V:具有远超GPT-4V信任度的多模态大语言模型
使用方式
python from datasets import load_dataset data = load_dataset("openbmb/RLAIF-V-Dataset")
引用
bibtex @article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} }
@article{yu2024rlaifv, title={RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness}, author={Tianyu Yu and Haoye Zhang and Qiming Li and Qixin Xu and Yuan Yao and Da Chen and Xiaoman Lu and Ganqu Cui and Yunkai Dang and Taiwen He and Xiaocheng Feng and Jun Song and Bo Zheng and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, }

日食计算器
此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。
国家天文科学数据中心 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
PeMS data-sets
该数据集来自Caltrans Performance Measurement System (PeMS),存储在PeMS Data Clearinghouse中,用于交通数据分析。数据集通过浏览器扩展批量下载,并加载到内部SQL服务器实例中进行进一步处理和汇总。
github 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录
