argilla/distilabel-capybara-dpo-7k-binarized|多轮对话数据集|偏好调整数据集
收藏数据集概述
基本信息
- 数据集名称: CapybaraDPO-7k
- 许可证: Apache-2.0
- 语言: 英语 (en)
- 标签: Physics, Biology, Math, Chemistry, Culture, Logic, Roleplay, rlaif, rlhf, dpo, distilabel, synthetic
- 任务类别: Question-Answering, Text-Generation
- 大小范围: 1K<n<10K
数据集结构
- 特征:
- source: 字符串
- conversation:
- input: 字符串
- output: 字符串
- original_response: 字符串
- generation_prompt: 序列字符串
- raw_generation_responses: 序列字符串
- new_generations: 序列字符串
- prompt: 字符串
- chosen:
- content: 字符串
- role: 字符串
- rejected:
- content: 字符串
- role: 字符串
- rating_chosen: 整数64位
- rating_rejected: 整数64位
- chosen_model: 字符串
- rejected_model: 字符串
数据集分割
- 训练集:
- 字节数: 348791651
- 示例数: 7563
- 下载大小: 155776049
- 数据集大小: 348791651
配置
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径: data/train-*
- 数据文件:
使用方法
- 数据集用途: 用于提升开源LLMs的聊天能力,特别是通过多轮对话偏好数据进行微调。
- 数据集格式: 遵循OpenAI的对话格式,包含用户和助手之间的多轮对话。
- 使用示例: 通过过滤和格式化数据,准备用于DPO微调的数据集。
构建方法
- 响应生成: 使用三种不同的开源模型生成响应。
- 偏好数据生成: 使用
UltraFeedback.for_overall_quality()模型评估响应质量。
基准测试结果
- 测试模型: CapybaraHermes-2.5-Mistral-7B
- 测试工具: MTBench, AGIEval, GPT4All, TruthfulQA, Bigbench
- 性能提升: 在MTBench Second Turn评分中表现显著提升。

AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
China Family Panel Studies (CFPS)
Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.
DataCite Commons 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
