snork-maiden/gemma-2b-it-lmsys-gemma-subset-tokenized

Name: snork-maiden/gemma-2b-it-lmsys-gemma-subset-tokenized
Creator: snork-maiden
Published: 2025-10-28 19:50:13
License: 暂无描述

Hugging Face2025-10-28 更新2025-11-15 收录

下载链接：

https://hf-mirror.com/datasets/snork-maiden/gemma-2b-it-lmsys-gemma-subset-tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列整数序列，可能代表某种语言的词汇索引。数据集分为训练集，共有500,837个示例，总数据大小为4104.86MB。数据集的具体内容和用途在README文件中未明确说明。

The dataset contains a series of integer sequences, which may represent vocabulary indices of some language. The dataset is split into a training set with a total of 500,837 examples and an overall dataset size of 4104.86MB. The specific content and purpose of the dataset are not explicitly described in the README file.

提供机构：

snork-maiden

5,000+

优质数据集

54 个

任务类型

进入经典数据集