five

OREOOOO/chatbot_arena_ko

收藏
Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/OREOOOO/chatbot_arena_ko
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,用于记录模型之间的对话比较结果。主要字段包括question_id(问题ID)、model_a(模型A的回答)、model_b(模型B的回答)、winner(胜出模型)、judge(评判者)、conversation_a(模型A的对话内容)、conversation_b(模型B的对话内容)、turn(对话轮次)、anony(是否匿名)、language(语言)、tstamp(时间戳)、openai_moderation(OpenAI的审核结果)和toxic_chat_tag(毒性聊天标签)。数据集还包含嵌套的结构,如conversation_a和conversation_b中的content和role字段,openai_moderation中的categories和category_scores字段,以及toxic_chat_tag中的roberta-large和t5-large字段。数据集被分为训练集,包含34个样本,总大小为83619.22806060607字节。

This dataset contains multiple fields for recording the comparison results of dialogues between models. The main fields include question_id (question ID), model_a (response from model A), model_b (response from model B), winner (winning model), judge (judge), conversation_a (dialogue content from model A), conversation_b (dialogue content from model B), turn (dialogue turn), anony (whether anonymous), language (language), tstamp (timestamp), openai_moderation (OpenAI moderation results), and toxic_chat_tag (toxic chat tags). The dataset also includes nested structures, such as the content and role fields in conversation_a and conversation_b, the categories and category_scores fields in openai_moderation, and the roberta-large and t5-large fields in toxic_chat_tag. The dataset is divided into a training set, containing 34 samples, with a total size of 83619.22806060607 bytes.
提供机构:
OREOOOO
原始信息汇总

数据集概述

数据集特征

  • question_id: 字符串类型,表示问题的唯一标识符。
  • model_a: 字符串类型,表示模型A的标识符。
  • model_b: 字符串类型,表示模型B的标识符。
  • winner: 字符串类型,表示获胜者的标识符。
  • judge: 字符串类型,表示裁判的标识符。
  • conversation_a: 列表类型,包含以下子特征:
    • content: 字符串类型,表示对话内容。
    • role: 字符串类型,表示对话角色。
  • conversation_b: 列表类型,包含以下子特征:
    • content: 字符串类型,表示对话内容。
    • role: 字符串类型,表示对话角色。
  • turn: 整数类型,表示对话轮次。
  • anony: 布尔类型,表示是否匿名。
  • language: 字符串类型,表示语言标识符。
  • tstamp: 浮点数类型,表示时间戳。
  • openai_moderation: 结构体类型,包含以下子特征:
    • categories: 结构体类型,包含以下子特征:
      • harassment: 布尔类型,表示是否涉及骚扰。
      • harassment/threatening: 布尔类型,表示是否涉及威胁性骚扰。
      • hate: 布尔类型,表示是否涉及仇恨。
      • hate/threatening: 布尔类型,表示是否涉及威胁性仇恨。
      • self-harm: 布尔类型,表示是否涉及自残。
      • self-harm/instructions: 布尔类型,表示是否涉及自残指导。
      • self-harm/intent: 布尔类型,表示是否涉及自残意图。
      • sexual: 布尔类型,表示是否涉及性内容。
      • sexual/minors: 布尔类型,表示是否涉及未成年人性内容。
      • violence: 布尔类型,表示是否涉及暴力。
      • violence/graphic: 布尔类型,表示是否涉及暴力图像。
    • category_scores: 结构体类型,包含以下子特征:
      • harassment: 浮点数类型,表示骚扰评分。
      • harassment/threatening: 浮点数类型,表示威胁性骚扰评分。
      • hate: 浮点数类型,表示仇恨评分。
      • hate/threatening: 浮点数类型,表示威胁性仇恨评分。
      • self-harm: 浮点数类型,表示自残评分。
      • self-harm/instructions: 浮点数类型,表示自残指导评分。
      • self-harm/intent: 浮点数类型,表示自残意图评分。
      • sexual: 浮点数类型,表示性内容评分。
      • sexual/minors: 浮点数类型,表示未成年人性内容评分。
      • violence: 浮点数类型,表示暴力评分。
      • violence/graphic: 浮点数类型,表示暴力图像评分。
    • flagged: 布尔类型,表示是否被标记。
  • toxic_chat_tag: 结构体类型,包含以下子特征:
    • roberta-large: 结构体类型,包含以下子特征:
      • flagged: 布尔类型,表示是否被标记。
      • probability: 浮点数类型,表示概率。
    • t5-large: 结构体类型,包含以下子特征:
      • flagged: 布尔类型,表示是否被标记。
      • score: 浮点数类型,表示评分。

数据集分割

  • train: 训练集,包含34个样本,占用83619.22806060607字节。

数据集大小

  • 下载大小: 60361字节
  • 数据集大小: 83619.22806060607字节

配置

  • default: 默认配置,包含训练集数据文件路径为data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作