erfanzar/lmsys-lite

Name: erfanzar/lmsys-lite
Creator: erfanzar
Published: 2023-11-01 10:05:42
License: 暂无描述

Hugging Face2023-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/erfanzar/lmsys-lite

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为lmsys-lite，是lmsys/lmsys-chat-1m的简化版本，仅包含英语内容，并且过滤了特定的模型。数据集的特征包括对话ID、OpenAI的审核结果、对话内容、对话列表以及Llama 2提示风格。数据集分为训练集，包含437,224个样本，总大小为3,447,659,164字节。

提供机构：

erfanzar

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集信息

特征:
- conversation_id: 数据类型为字符串。
- openai_moderation: 包含以下子特征:
  - categories: 结构化数据，包含以下字段:
    - harassment: 数据类型为布尔值。
    - harassment/threatening: 数据类型为布尔值。
    - hate: 数据类型为布尔值。
    - hate/threatening: 数据类型为布尔值。
    - self-harm: 数据类型为布尔值。
    - self-harm/instructions: 数据类型为布尔值。
    - self-harm/intent: 数据类型为布尔值。
    - sexual: 数据类型为布尔值。
    - sexual/minors: 数据类型为布尔值。
    - violence: 数据类型为布尔值。
    - violence/graphic: 数据类型为布尔值。
  - category_scores: 结构化数据，包含以下字段:
    - harassment: 数据类型为浮点数。
    - harassment/threatening: 数据类型为浮点数。
    - hate: 数据类型为浮点数。
    - hate/threatening: 数据类型为浮点数。
    - self-harm: 数据类型为浮点数。
    - self-harm/instructions: 数据类型为浮点数。
    - self-harm/intent: 数据类型为浮点数。
    - sexual: 数据类型为浮点数。
    - sexual/minors: 数据类型为浮点数。
    - violence: 数据类型为浮点数。
    - violence/graphic: 数据类型为浮点数。
  - flagged: 数据类型为布尔值。
- conversation: 包含以下子特征:
  - content: 数据类型为字符串。
  - role: 数据类型为字符串。
- list_conversation: 数据类型为字符串序列。
- llama_2_prompt_style: 数据类型为字符串。