izzako/sundanese-pixelgpt

Name: izzako/sundanese-pixelgpt
Creator: izzako
Published: 2025-12-18 17:59:18
License: 暂无描述

Hugging Face2025-12-18 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/izzako/sundanese-pixelgpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练PixelGPT模型的预处理巽他语文本数据。数据集具有以下特点：1) 语言为巽他语；2) 总样本量294,756个，其中训练样本293,933个，测试样本823个；3) 包含多种特征列，如文本ID、块ID、像素值表示、两种分词器的标记ID以及原始文本块；4) 使用特定的渲染器配置；5) 适用于多模态任务。

This dataset contains preprocessed Sundanese text data for training PixelGPT models. Key characteristics include: 1) Language is Sundanese; 2) Total samples 294,756 (293,933 train, 823 test); 3) Features include text_id, chunk_id, pixel_values, grapheme_token_ids, llama_token_ids, and original text; 4) Uses specific renderer configuration; 5) Suitable for multimodal tasks.

提供机构：

izzako

5,000+

优质数据集

54 个

任务类型

进入经典数据集