Name: nar2189/lmsys-half-split-with-eval
Creator: nar2189
Published: 2025-12-08 03:01:44
License: 暂无描述

下载链接：

https://hf-mirror.com/datasets/nar2189/lmsys-half-split-with-eval

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversation_id dtype: string - name: model dtype: string - name: conversation list: - name: content dtype: string - name: role dtype: string - name: turn dtype: int64 - name: language dtype: string - name: openai_moderation list: - name: categories struct: - name: harassment dtype: bool - name: harassment/threatening dtype: bool - name: hate dtype: bool - name: hate/threatening dtype: bool - name: self-harm dtype: bool - name: self-harm/instructions dtype: bool - name: self-harm/intent dtype: bool - name: sexual dtype: bool - name: sexual/minors dtype: bool - name: violence dtype: bool - name: violence/graphic dtype: bool - name: category_scores struct: - name: harassment dtype: float64 - name: harassment/threatening dtype: float64 - name: hate dtype: float64 - name: hate/threatening dtype: float64 - name: self-harm dtype: float64 - name: self-harm/instructions dtype: float64 - name: self-harm/intent dtype: float64 - name: sexual dtype: float64 - name: sexual/minors dtype: float64 - name: violence dtype: float64 - name: violence/graphic dtype: float64 - name: flagged dtype: bool - name: redacted dtype: bool splits: - name: train num_bytes: 198610868.0639846 num_examples: 125475 - name: eval num_bytes: 15828720.307948563 num_examples: 10000 download_size: 140437346 dataset_size: 214439588.37193316 configs: - config_name: default data_files: - split: train path: data/train-* - split: eval path: data/eval-* ---

数据集信息：特征字段： - 名称：对话ID（conversation_id），数据类型：字符串型（string） - 名称：模型（model），数据类型：字符串型（string） - 名称：对话（conversation），数据类型：列表型（list），列表项包含： - 名称：内容（content），数据类型：字符串型（string） - 名称：角色（role），数据类型：字符串型（string） - 名称：对话轮次（turn），数据类型：64位整型（int64） - 名称：语言（language），数据类型：字符串型（string） - 名称：OpenAI审核结果（openai_moderation），数据类型：列表型（list），列表项包含： - 名称：分类类别（categories），数据类型：结构体（struct），结构体字段包括： - 骚扰（harassment）：布尔型（bool） - 骚扰/威胁（harassment/threatening）：布尔型（bool） - 仇恨言论（hate）：布尔型（bool） - 仇恨/威胁（hate/threatening）：布尔型（bool） - 自残（self-harm）：布尔型（bool） - 自残指令（self-harm/instructions）：布尔型（bool） - 自残意图（self-harm/intent）：布尔型（bool） - 色情内容（sexual）：布尔型（bool） - 儿童色情（sexual/minors）：布尔型（bool） - 暴力内容（violence）：布尔型（bool） - 具象暴力（violence/graphic）：布尔型（bool） - 名称：分类得分（category_scores），数据类型：结构体（struct），结构体字段包括： - 骚扰（harassment）：64位浮点型（float64） - 骚扰/威胁（harassment/threatening）：64位浮点型（float64） - 仇恨言论（hate）：64位浮点型（float64） - 仇恨/威胁（hate/threatening）：64位浮点型（float64） - 自残（self-harm）：64位浮点型（float64） - 自残指令（self-harm/instructions）：64位浮点型（float64） - 自残意图（self-harm/intent）：64位浮点型（float64） - 色情内容（sexual）：64位浮点型（float64） - 儿童色情（sexual/minors）：64位浮点型（float64） - 暴力内容（violence）：64位浮点型（float64） - 具象暴力（violence/graphic）：64位浮点型（float64） - 名称：是否标记违规（flagged），数据类型：布尔型（bool） - 名称：是否已脱敏（redacted），数据类型：布尔型（bool）数据划分： - 划分名称：训练集（train），字节数：198610868.0639846，样本数：125475 - 划分名称：验证集（eval），字节数：15828720.307948563，样本数：10000 下载大小：140437346，总数据集大小：214439588.37193316 配置项： - 配置名称：默认（default），数据文件： - 训练集（train）对应路径：data/train-* - 验证集（eval）对应路径：data/eval-*

应用场景：