OREOOOO/chatbot_arena_ko

Name: OREOOOO/chatbot_arena_ko
Creator: OREOOOO
Published: 2024-06-25 04:28:31
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/OREOOOO/chatbot_arena_ko

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，用于记录模型之间的对话比较结果。主要字段包括question_id（问题ID）、model_a（模型A的回答）、model_b（模型B的回答）、winner（胜出模型）、judge（评判者）、conversation_a（模型A的对话内容）、conversation_b（模型B的对话内容）、turn（对话轮次）、anony（是否匿名）、language（语言）、tstamp（时间戳）、openai_moderation（OpenAI的审核结果）和toxic_chat_tag（毒性聊天标签）。数据集还包含嵌套的结构，如conversation_a和conversation_b中的content和role字段，openai_moderation中的categories和category_scores字段，以及toxic_chat_tag中的roberta-large和t5-large字段。数据集被分为训练集，包含34个样本，总大小为83619.22806060607字节。

This dataset contains multiple fields for recording the comparison results of dialogues between models. The main fields include question_id (question ID), model_a (response from model A), model_b (response from model B), winner (winning model), judge (judge), conversation_a (dialogue content from model A), conversation_b (dialogue content from model B), turn (dialogue turn), anony (whether anonymous), language (language), tstamp (timestamp), openai_moderation (OpenAI moderation results), and toxic_chat_tag (toxic chat tags). The dataset also includes nested structures, such as the content and role fields in conversation_a and conversation_b, the categories and category_scores fields in openai_moderation, and the roberta-large and t5-large fields in toxic_chat_tag. The dataset is divided into a training set, containing 34 samples, with a total size of 83619.22806060607 bytes.

提供机构：

OREOOOO

原始信息汇总

数据集概述

数据集特征

question_id: 字符串类型，表示问题的唯一标识符。
model_a: 字符串类型，表示模型A的标识符。
model_b: 字符串类型，表示模型B的标识符。
winner: 字符串类型，表示获胜者的标识符。
judge: 字符串类型，表示裁判的标识符。
conversation_a: 列表类型，包含以下子特征：
- content: 字符串类型，表示对话内容。
- role: 字符串类型，表示对话角色。
conversation_b: 列表类型，包含以下子特征：
- content: 字符串类型，表示对话内容。
- role: 字符串类型，表示对话角色。
turn: 整数类型，表示对话轮次。
anony: 布尔类型，表示是否匿名。
language: 字符串类型，表示语言标识符。
tstamp: 浮点数类型，表示时间戳。
openai_moderation: 结构体类型，包含以下子特征：
- categories: 结构体类型，包含以下子特征：
  - harassment: 布尔类型，表示是否涉及骚扰。
  - harassment/threatening: 布尔类型，表示是否涉及威胁性骚扰。
  - hate: 布尔类型，表示是否涉及仇恨。
  - hate/threatening: 布尔类型，表示是否涉及威胁性仇恨。
  - self-harm: 布尔类型，表示是否涉及自残。
  - self-harm/instructions: 布尔类型，表示是否涉及自残指导。
  - self-harm/intent: 布尔类型，表示是否涉及自残意图。
  - sexual: 布尔类型，表示是否涉及性内容。
  - sexual/minors: 布尔类型，表示是否涉及未成年人性内容。
  - violence: 布尔类型，表示是否涉及暴力。
  - violence/graphic: 布尔类型，表示是否涉及暴力图像。
- category_scores: 结构体类型，包含以下子特征：
  - harassment: 浮点数类型，表示骚扰评分。
  - harassment/threatening: 浮点数类型，表示威胁性骚扰评分。
  - hate: 浮点数类型，表示仇恨评分。
  - hate/threatening: 浮点数类型，表示威胁性仇恨评分。
  - self-harm: 浮点数类型，表示自残评分。
  - self-harm/instructions: 浮点数类型，表示自残指导评分。
  - self-harm/intent: 浮点数类型，表示自残意图评分。
  - sexual: 浮点数类型，表示性内容评分。
  - sexual/minors: 浮点数类型，表示未成年人性内容评分。
  - violence: 浮点数类型，表示暴力评分。
  - violence/graphic: 浮点数类型，表示暴力图像评分。
- flagged: 布尔类型，表示是否被标记。
toxic_chat_tag: 结构体类型，包含以下子特征：
- roberta-large: 结构体类型，包含以下子特征：
  - flagged: 布尔类型，表示是否被标记。
  - probability: 浮点数类型，表示概率。
- t5-large: 结构体类型，包含以下子特征：
  - flagged: 布尔类型，表示是否被标记。
  - score: 浮点数类型，表示评分。

数据集分割

train: 训练集，包含34个样本，占用83619.22806060607字节。

数据集大小

下载大小: 60361字节
数据集大小: 83619.22806060607字节

配置

default: 默认配置，包含训练集数据文件路径为data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集