five

izzako/sundanese-pixelgpt

收藏
Hugging Face2025-12-18 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/izzako/sundanese-pixelgpt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练PixelGPT模型的预处理巽他语文本数据。数据集具有以下特点:1) 语言为巽他语;2) 总样本量294,756个,其中训练样本293,933个,测试样本823个;3) 包含多种特征列,如文本ID、块ID、像素值表示、两种分词器的标记ID以及原始文本块;4) 使用特定的渲染器配置;5) 适用于多模态任务。

This dataset contains preprocessed Sundanese text data for training PixelGPT models. Key characteristics include: 1) Language is Sundanese; 2) Total samples 294,756 (293,933 train, 823 test); 3) Features include text_id, chunk_id, pixel_values, grapheme_token_ids, llama_token_ids, and original text; 4) Uses specific renderer configuration; 5) Suitable for multimodal tasks.
提供机构:
izzako
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作