lightblue/multilingual_prompts_100_sample_quantified_test|多语言数据集|模型评估数据集
收藏hugging_face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/lightblue/multilingual_prompts_100_sample_quantified_test
下载链接
资源简介:
该数据集包含多个对话的特征,每个对话具有唯一的对话ID、使用的模型、对话内容、轮次、语言信息、OpenAI的审核结果(包括多个类别和分数)、语言检测结果、首次交换的令牌长度、索引级别、多个LLM模型的响应内容及其完成原因、模型评估结果以及量化响应。数据集分为训练集,包含250个样本,总大小为4908551字节,下载大小为2482060字节。
提供机构:
lightblue
原始信息汇总
数据集概述
数据集特征
-
conversation_id
- 数据类型:string
-
model
- 数据类型:string
-
conversation
- 子特征:
- content
- 数据类型:string
- role
- 数据类型:string
- content
- 子特征:
-
turn
- 数据类型:int64
-
language
- 数据类型:string
-
openai_moderation
- 子特征:
- categories
- 子特征:
- harassment
- 数据类型:bool
- harassment/threatening
- 数据类型:bool
- hate
- 数据类型:bool
- hate/threatening
- 数据类型:bool
- self-harm
- 数据类型:bool
- self-harm/instructions
- 数据类型:bool
- self-harm/intent
- 数据类型:bool
- sexual
- 数据类型:bool
- sexual/minors
- 数据类型:bool
- violence
- 数据类型:bool
- violence/graphic
- 数据类型:bool
- harassment
- 子特征:
- category_scores
- 子特征:
- harassment
- 数据类型:float64
- harassment/threatening
- 数据类型:float64
- hate
- 数据类型:float64
- hate/threatening
- 数据类型:float64
- self-harm
- 数据类型:float64
- self-harm/instructions
- 数据类型:float64
- self-harm/intent
- 数据类型:float64
- sexual
- 数据类型:float64
- sexual/minors
- 数据类型:float64
- violence
- 数据类型:float64
- violence/graphic
- 数据类型:float64
- harassment
- 子特征:
- flagged
- 数据类型:bool
- categories
- 子特征:
-
redacted
- 数据类型:bool
-
lang_detect_result
- 子特征:
- lang
- 数据类型:string
- score
- 数据类型:float64
- lang
- 子特征:
-
first_exchange_len_tokens
- 数据类型:int64
-
index_level_1
- 数据类型:int64
-
llm_responses
- 子特征:
- CohereForAI/c4ai-command-r-plus
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- CohereForAI/c4ai-command-r-v01
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- Nexusflow/Starling-LM-7B-beta
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- Qwen/Qwen1.5-32B-Chat
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- Qwen/Qwen1.5-72B-Chat
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- gpt-4-0125-preview
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- peter-gpt-35-turbo
- 子特征:
- content
- 数据类型:string
- finish_reason
- 数据类型:string
- content
- 子特征:
- CohereForAI/c4ai-command-r-plus
- 子特征:
-
model_evals
- 子特征:
- eval_finish_reason
- 数据类型:string
- eval_model_name
- 数据类型:string
- eval_response
- 数据类型:string
- model_id_list
- 数据类型:sequence of string
- eval_finish_reason
- 子特征:
-
responses_quantified
- 数据类型:sequence of string
数据集分割
- train
- 字节数:4908551
- 示例数:250
数据集大小
- 下载大小:2482060
- 数据集大小:4908551
配置
- config_name: default
- data_files
- split: train
- path: data/train-*
- split: train
- data_files