argilla/distilabel-capybara-dpo-7k-binarized|多轮对话数据集|偏好调整数据集
收藏数据集概述
基本信息
- 数据集名称: CapybaraDPO-7k
- 许可证: Apache-2.0
- 语言: 英语 (en)
- 标签: Physics, Biology, Math, Chemistry, Culture, Logic, Roleplay, rlaif, rlhf, dpo, distilabel, synthetic
- 任务类别: Question-Answering, Text-Generation
- 大小范围: 1K<n<10K
数据集结构
- 特征:
- source: 字符串
- conversation:
- input: 字符串
- output: 字符串
- original_response: 字符串
- generation_prompt: 序列字符串
- raw_generation_responses: 序列字符串
- new_generations: 序列字符串
- prompt: 字符串
- chosen:
- content: 字符串
- role: 字符串
- rejected:
- content: 字符串
- role: 字符串
- rating_chosen: 整数64位
- rating_rejected: 整数64位
- chosen_model: 字符串
- rejected_model: 字符串
数据集分割
- 训练集:
- 字节数: 348791651
- 示例数: 7563
- 下载大小: 155776049
- 数据集大小: 348791651
配置
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径: data/train-*
- 数据文件:
使用方法
- 数据集用途: 用于提升开源LLMs的聊天能力,特别是通过多轮对话偏好数据进行微调。
- 数据集格式: 遵循OpenAI的对话格式,包含用户和助手之间的多轮对话。
- 使用示例: 通过过滤和格式化数据,准备用于DPO微调的数据集。
构建方法
- 响应生成: 使用三种不同的开源模型生成响应。
- 偏好数据生成: 使用
UltraFeedback.for_overall_quality()
模型评估响应质量。
基准测试结果
- 测试模型: CapybaraHermes-2.5-Mistral-7B
- 测试工具: MTBench, AGIEval, GPT4All, TruthfulQA, Bigbench
- 性能提升: 在MTBench Second Turn评分中表现显著提升。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录