polygraf-ai/mc_combined_v2
收藏Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/polygraf-ai/mc_combined_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本、标签、来源、链接和索引五个特征。数据集仅包含一个训练集,共有1,244,852个样本,总大小为1,686,326,340字节。标签分布如下:claude标签有576,696个样本,llama3有348,710个样本,openai有122,502个样本,mistral有118,166个样本,gemini有78,778个样本。
The dataset contains five features: text, label, source, link, and __index_level_0__. The dataset includes only a training set with 1,244,852 samples and a total size of 1,686,326,340 bytes. The label distribution is as follows: claude has 576,696 samples, llama3 has 348,710 samples, openai has 122,502 samples, mistral has 118,166 samples, and gemini has 78,778 samples.
提供机构:
polygraf-ai
原始信息汇总
数据集概述
数据集信息
-
特征:
text: 类型为stringlabel: 类型为stringsource: 类型为stringlink: 类型为string__index_level_0__: 类型为int64
-
分割:
train:- 字节数: 1686326340
- 样本数: 1244852
-
下载大小: 799400205 字节
-
数据集大小: 1686326340 字节
配置
- 配置名称:
default- 数据文件:
train:data/train-*
- 数据文件:
标签分布
| label | 样本数 |
|---|---|
| claude | 576696 |
| llama3 | 348710 |
| openai | 122502 |
| mistral | 118166 |
| gemini | 78778 |



