lightblue/mitsu
收藏Hugging Face2024-05-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/lightblue/mitsu
下载链接
链接失效反馈官方服务:
资源简介:
Mitsu数据集是一个多语言偏好数据集,包含来自74种语言的3,055个提示,经过过滤后剩下2,714个提示,涉及62种语言。数据集通过7个大型语言模型生成响应,并使用GPT-4进行5次评估。数据集的特征包括对话ID、模型、对话内容、轮次、语言、OpenAI审核结果、语言检测结果等。数据集的使用方法包括将其处理为适用于DPO/PPO/ORPO训练的数据集,并提供了不同处理版本的数据集链接。实验结果表明,使用较少的数据进行训练可能在下游任务中取得更好的效果。
提供机构:
lightblue
原始信息汇总
数据集概述
数据集信息
特征列表
- conversation_id: 字符串类型
- model: 字符串类型
- conversation: 列表类型
- content: 字符串类型
- role: 字符串类型
- turn: 整数类型
- language: 字符串类型
- openai_moderation: 列表类型
- categories: 结构体类型
- harassment: 布尔类型
- harassment/threatening: 布尔类型
- hate: 布尔类型
- hate/threatening: 布尔类型
- self-harm: 布尔类型
- self-harm/instructions: 布尔类型
- self-harm/intent: 布尔类型
- sexual: 布尔类型
- sexual/minors: 布尔类型
- violence: 布尔类型
- violence/graphic: 布尔类型
- category_scores: 结构体类型
- harassment: 浮点数类型
- harassment/threatening: 浮点数类型
- hate: 浮点数类型
- hate/threatening: 浮点数类型
- self-harm: 浮点数类型
- self-harm/instructions: 浮点数类型
- self-harm/intent: 浮点数类型
- sexual: 浮点数类型
- sexual/minors: 浮点数类型
- violence: 浮点数类型
- violence/graphic: 浮点数类型
- flagged: 布尔类型
- categories: 结构体类型
- redacted: 布尔类型
- lang_detect_result: 结构体类型
- lang: 字符串类型
- score: 浮点数类型
- first_exchange_len_tokens: 整数类型
- index_level_1: 整数类型
- llm_responses: 结构体类型
- CohereForAI/c4ai-command-r-plus: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- CohereForAI/c4ai-command-r-v01: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- Nexusflow/Starling-LM-7B-beta: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- Qwen/Qwen1.5-32B-Chat: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- Qwen/Qwen1.5-72B-Chat: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- gpt-4-0125-preview: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- peter-gpt-35-turbo: 结构体类型
- content: 字符串类型
- finish_reason: 字符串类型
- CohereForAI/c4ai-command-r-plus: 结构体类型
- model_evals: 列表类型
- eval_finish_reason: 字符串类型
- eval_model_name: 字符串类型
- eval_response: 字符串类型
- model_id_list: 序列类型
- 序列: 字符串类型
数据集分割
- train:
- num_bytes: 55556335
- num_examples: 2996
数据集大小
- download_size: 24717544
- dataset_size: 55556335
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
许可
- license: cc-by-nc-4.0
数据集大小分类
- size_categories:
- 1K<n<10K



