laurentiubp/ultrachat-filtered

Name: laurentiubp/ultrachat-filtered
Creator: laurentiubp
Published: 2024-07-07 12:09:24
License: 暂无描述

Hugging Face2024-07-07 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/laurentiubp/ultrachat-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，包括消息内容、角色、UUID、来源、评分（如连贯性、复杂性、正确性、帮助性、指令遵循、安全性、冗长性和冗长系数）以及聚合评分。数据集分为一个训练集，包含54602个样本，总大小为312392902字节。

The dataset includes multiple features such as message content, role, UUID, source, scores (including coherence, complexity, correctness, helpfulness, instruction-following, safety, verbosity, and verbosity coefficient), and an aggregate score. The dataset is divided into a training set containing 54,602 samples, with a total size of 312,392,902 bytes.

提供机构：

laurentiubp

原始信息汇总

数据集概述

数据集信息

特征

messages: 包含以下子特征的列表
- content: 数据类型为字符串
- role: 数据类型为字符串
- uuid: 数据类型为字符串
source: 数据类型为字符串
scores: 包含以下子特征的结构
- coherence: 数据类型为浮点数
- complexity: 数据类型为浮点数
- correctness: 数据类型为浮点数
- helpfulness: 数据类型为浮点数
- instruction-following: 数据类型为浮点数
- safety: 数据类型为浮点数
- verbosity: 数据类型为浮点数
- verbosity-coeff: 数据类型为浮点数
agg_score: 数据类型为浮点数
uuid: 数据类型为字符串

数据集分割

train:
- 字节数: 312,392,902
- 样本数: 54,602

数据集大小

下载大小: 169,486,859 字节
数据集大小: 312,392,902 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集