OREOOOO/chatbot_arena_ko
收藏Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/OREOOOO/chatbot_arena_ko
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,用于记录模型之间的对话比较结果。主要字段包括question_id(问题ID)、model_a(模型A的回答)、model_b(模型B的回答)、winner(胜出模型)、judge(评判者)、conversation_a(模型A的对话内容)、conversation_b(模型B的对话内容)、turn(对话轮次)、anony(是否匿名)、language(语言)、tstamp(时间戳)、openai_moderation(OpenAI的审核结果)和toxic_chat_tag(毒性聊天标签)。数据集还包含嵌套的结构,如conversation_a和conversation_b中的content和role字段,openai_moderation中的categories和category_scores字段,以及toxic_chat_tag中的roberta-large和t5-large字段。数据集被分为训练集,包含34个样本,总大小为83619.22806060607字节。
This dataset contains multiple fields for recording the comparison results of dialogues between models. The main fields include question_id (question ID), model_a (response from model A), model_b (response from model B), winner (winning model), judge (judge), conversation_a (dialogue content from model A), conversation_b (dialogue content from model B), turn (dialogue turn), anony (whether anonymous), language (language), tstamp (timestamp), openai_moderation (OpenAI moderation results), and toxic_chat_tag (toxic chat tags). The dataset also includes nested structures, such as the content and role fields in conversation_a and conversation_b, the categories and category_scores fields in openai_moderation, and the roberta-large and t5-large fields in toxic_chat_tag. The dataset is divided into a training set, containing 34 samples, with a total size of 83619.22806060607 bytes.
提供机构:
OREOOOO
原始信息汇总
数据集概述
数据集特征
- question_id: 字符串类型,表示问题的唯一标识符。
- model_a: 字符串类型,表示模型A的标识符。
- model_b: 字符串类型,表示模型B的标识符。
- winner: 字符串类型,表示获胜者的标识符。
- judge: 字符串类型,表示裁判的标识符。
- conversation_a: 列表类型,包含以下子特征:
- content: 字符串类型,表示对话内容。
- role: 字符串类型,表示对话角色。
- conversation_b: 列表类型,包含以下子特征:
- content: 字符串类型,表示对话内容。
- role: 字符串类型,表示对话角色。
- turn: 整数类型,表示对话轮次。
- anony: 布尔类型,表示是否匿名。
- language: 字符串类型,表示语言标识符。
- tstamp: 浮点数类型,表示时间戳。
- openai_moderation: 结构体类型,包含以下子特征:
- categories: 结构体类型,包含以下子特征:
- harassment: 布尔类型,表示是否涉及骚扰。
- harassment/threatening: 布尔类型,表示是否涉及威胁性骚扰。
- hate: 布尔类型,表示是否涉及仇恨。
- hate/threatening: 布尔类型,表示是否涉及威胁性仇恨。
- self-harm: 布尔类型,表示是否涉及自残。
- self-harm/instructions: 布尔类型,表示是否涉及自残指导。
- self-harm/intent: 布尔类型,表示是否涉及自残意图。
- sexual: 布尔类型,表示是否涉及性内容。
- sexual/minors: 布尔类型,表示是否涉及未成年人性内容。
- violence: 布尔类型,表示是否涉及暴力。
- violence/graphic: 布尔类型,表示是否涉及暴力图像。
- category_scores: 结构体类型,包含以下子特征:
- harassment: 浮点数类型,表示骚扰评分。
- harassment/threatening: 浮点数类型,表示威胁性骚扰评分。
- hate: 浮点数类型,表示仇恨评分。
- hate/threatening: 浮点数类型,表示威胁性仇恨评分。
- self-harm: 浮点数类型,表示自残评分。
- self-harm/instructions: 浮点数类型,表示自残指导评分。
- self-harm/intent: 浮点数类型,表示自残意图评分。
- sexual: 浮点数类型,表示性内容评分。
- sexual/minors: 浮点数类型,表示未成年人性内容评分。
- violence: 浮点数类型,表示暴力评分。
- violence/graphic: 浮点数类型,表示暴力图像评分。
- flagged: 布尔类型,表示是否被标记。
- categories: 结构体类型,包含以下子特征:
- toxic_chat_tag: 结构体类型,包含以下子特征:
- roberta-large: 结构体类型,包含以下子特征:
- flagged: 布尔类型,表示是否被标记。
- probability: 浮点数类型,表示概率。
- t5-large: 结构体类型,包含以下子特征:
- flagged: 布尔类型,表示是否被标记。
- score: 浮点数类型,表示评分。
- roberta-large: 结构体类型,包含以下子特征:
数据集分割
- train: 训练集,包含34个样本,占用83619.22806060607字节。
数据集大小
- 下载大小: 60361字节
- 数据集大小: 83619.22806060607字节
配置
- default: 默认配置,包含训练集数据文件路径为
data/train-*。



