izzako/sundanese-pixelgpt
收藏Hugging Face2025-12-18 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/izzako/sundanese-pixelgpt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于训练PixelGPT模型的预处理巽他语文本数据。数据集具有以下特点:1) 语言为巽他语;2) 总样本量294,756个,其中训练样本293,933个,测试样本823个;3) 包含多种特征列,如文本ID、块ID、像素值表示、两种分词器的标记ID以及原始文本块;4) 使用特定的渲染器配置;5) 适用于多模态任务。
This dataset contains preprocessed Sundanese text data for training PixelGPT models. Key characteristics include: 1) Language is Sundanese; 2) Total samples 294,756 (293,933 train, 823 test); 3) Features include text_id, chunk_id, pixel_values, grapheme_token_ids, llama_token_ids, and original text; 4) Uses specific renderer configuration; 5) Suitable for multimodal tasks.
提供机构:
izzako



