five

wangclnlp/vision-feedback-mix-binarized-cleaned

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/wangclnlp/vision-feedback-mix-binarized-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是[wangclnlp/vision-feedback-mix-binarized](https://huggingface.co/datasets/wangclnlp/vision-feedback-mix-binarized)数据集的清理版本,旨在通过三个步骤清理视觉反馈数据:长度比率、编辑距离和首选输出的质量。这些步骤确保首选输出与不首选输出之间有显著差异,并且首选输出的质量较高。清理后的数据集包含98,322个样本。未来的计划包括训练奖励模型和进行DPO训练。数据集的局限性在于使用GPT-4进行评分,但其作为当前最先进的视觉处理模型,被认为是相对可靠的。

This dataset represents a cleaned version of the [wangclnlp/vision-feedback-mix-binarized](https://huggingface.co/datasets/wangclnlp/vision-feedback-mix-binarized) dataset, aiming to clean vision feedback data through three steps: length ratio, edit distance, and the quality of the preferred output. These steps ensure that there is a significant difference between the preferred and dispreferred outputs, and that the quality of the preferred output is high. The cleaned dataset contains 98,322 samples. Future plans include training a reward model and conducting DPO training. The limitation of the dataset lies in the use of GPT-4 for scoring, but as the most advanced visual processing model currently available, it is considered relatively reliable.
提供机构:
wangclnlp
原始信息汇总

数据集概述

基本信息

  • 名称: vision-feedback-mix-binarized-cleaned
  • 别名: wangclnlp/vision-feedback-mix-binarized-cleaned
  • 描述:
    • 该数据集是基于 wangclnlp/vision-feedback-mix-binarized 的清洁版本。
    • 数据集包含图像和文本数据,用于视觉反馈分析。
  • 创建者: wangchenglong
  • 许可证: MIT
  • 关键词:
    • mit
    • 10K - 100K
    • parquet
    • Image
    • Text
    • Datasets
    • Dask
    • Croissant
    • 🇺🇸 Region: US
    • vision
    • feedback
    • dpo
    • rlhf
    • preference

数据格式

  • 数据类型:
    • 文本 (Text)
    • 图像 (ImageObject)
  • 文件格式: Parquet

数据集结构

  • 记录集: default
    • 字段:
      • default/id: 文本字段,表示数据集中的ID。
      • default/origin_pre_dataset: 文本字段,表示原始数据集的标识。
      • default/image: 图像字段,包含图像数据。
      • default/image_path: 文本字段,表示图像文件的路径。
      • default/conversations: 文本字段,包含对话数据。

数据来源

  • 文件集: parquet-files-for-config-default
    • 描述: 由 HF Mirror 转换的底层 Parquet 文件。
    • 包含文件: default//.parquet

数据集链接

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作