allenai-sera-unified-100000

Name: allenai-sera-unified-100000
Creator: LAION eV
Published: 2026-03-25 22:25:36
License: 暂无描述

Hugging Face2026-03-25 更新2026-03-26 收录

下载链接：

https://huggingface.co/datasets/laion/allenai-sera-unified-100000

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含100,000个训练样本，总大小约为21.5GB（下载压缩包6.1GB）。每个样本包含三个主要字段：1) 'conversations'字段为对话列表，其中每个对话包含'content'（文本内容，字符串类型）和'role'（角色标识，字符串类型）两个子字段；2) 'instance_id'字段（字符串类型）用于唯一标识实例；3) 'source'字段（字符串类型）标注数据来源。数据集仅提供训练集划分，未说明具体应用场景或收集背景。

提供机构：

LAION eV

创建时间：

2026-03-25

原始信息汇总

数据集概述

基本信息

数据集名称: allenai-sera-unified-100000
发布者/组织: laion
数据集地址: https://huggingface.co/datasets/laion/allenai-sera-unified-100000

数据集结构与内容

数据格式: 包含三个主要特征字段
- conversations: 列表类型，其中每个元素包含content（字符串类型）和role（字符串类型）两个字段。
- instance_id: 字符串类型。
- source: 字符串类型。
数据划分: 仅包含一个划分
- 划分名称: train
- 样本数量: 100,000 条
- 数据集大小: 21,128,508,124.185364 字节（约21.13 GB）
- 下载大小: 6,040,807,211 字节（约6.04 GB）

数据获取与配置

默认配置名称: default
数据文件路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集