malaysia-ai/mosaic-starcoder-filtered

Name: malaysia-ai/mosaic-starcoder-filtered
Creator: malaysia-ai
Published: 2023-11-28 08:14:20
License: 暂无描述

Hugging Face2023-11-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/malaysia-ai/mosaic-starcoder-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用Mosaic格式存储，用于训练马来西亚的大型语言模型（LLM）。数据集经过过滤，使用了特定的tokenizer，并设置了4096的上下文长度。用户可以通过git lfs克隆数据集，并使用提供的Python代码加载数据集。

提供机构：

malaysia-ai

原始信息汇总

数据集概述

数据集名称

Mosaic format for filtered starcoder dataset to train Malaysian LLM

数据集描述

该数据集用于存储使用mosaic格式的数据分片，旨在训练马来西亚的大型语言模型（LLM）。

数据集准备

数据集准备脚本位于：https://github.com/malaysia-ai/dedup-text-dataset/blob/main/pretrain-llm/combine-starcoder.ipynb
使用tokenizer：https://huggingface.co/malaysia-ai/bpe-tokenizer
上下文长度为4096。

数据集使用方法

克隆数据集： bash git lfs clone https://huggingface.co/datasets/malaysia-ai/mosaic-starcoder-filtered
加载数据集： python from streaming import LocalDataset import numpy as np from streaming.base.format.mds.encodings import Encoding, _encodings

class UInt16(Encoding): def encode(self, obj) -> bytes: return obj.tobytes()
```
def decode(self, data: bytes):
    return np.frombuffer(data, np.uint16)
```
_encodings[uint16] = UInt16

dataset = LocalDataset(mosaic-starcoder-filtered) len(dataset)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量语料库的构建是训练大型语言模型的基础。该数据集通过精心设计的流程，首先从原始Starcoder数据集中筛选出与马来西亚语言文化相关的内容，随后利用专门开发的BPE分词器进行预处理，确保文本符合本地语言特征。数据处理过程中采用去重和清洗策略，最终以Mosaic格式进行分片存储，每个数据块支持4096个上下文长度，为模型训练提供了结构化的输入。

使用方法

使用该数据集时，研究人员可通过Git LFS克隆完整数据到本地环境。借助Streaming库的LocalDataset类，可以轻松加载Mosaic格式的分片数据，并利用自定义的UInt16编码实现高效解码。数据加载后，可直接用于语言模型的预训练或微调任务，支持长上下文序列处理。该方法简化了数据处理流程，提升了实验的可复现性，适用于各类机器学习框架的集成。

背景与挑战

背景概述

在人工智能与自然语言处理领域，多语言大语言模型的开发已成为推动全球技术包容性的关键路径。马来西亚AI研究机构于近期创建了mosaic-starcoder-filtered数据集，旨在为训练适配马来语的大语言模型提供高质量语料支持。该数据集基于StarCoder代码库进行筛选与重构，采用Mosaic格式存储，并配合专门训练的BPE分词器，以4096的上下文长度优化模型预训练效率。其核心研究问题聚焦于解决低资源语言在代码生成与文本理解任务中的表征不足，通过构建本土化语料库，显著提升了马来语在编程辅助与多语言NLP应用中的技术可行性，为区域性AI发展注入了新的活力。

当前挑战

该数据集致力于应对低资源语言在代码生成与文本理解任务中的双重挑战：一方面，马来语作为相对稀缺的语料资源，在编程语言与自然语言混合数据中存在严重的表征不平衡问题，导致模型在语法结构捕捉与语义关联学习上效率低下；另一方面，数据构建过程中需克服原始StarCoder语料的噪声过滤、语言标识精确分离以及长序列上下文对齐等技术难题，同时还需确保Mosaic格式下数据分片的完整性及与定制分词器的兼容性，这些因素共同构成了数据集实用化部署的核心障碍。

常用场景

经典使用场景

在自然语言处理领域，多语言大语言模型的预训练已成为推动人工智能全球化发展的关键环节。Mosaic格式的Starcoder过滤数据集专为训练马来西亚语言模型而设计，其经典使用场景集中于大规模语料的高效处理与模型优化。通过采用4096的上下文长度和定制化的分词器，该数据集能够支持模型在长文本理解和生成任务中捕捉更丰富的语言特征，为后续的微调和部署奠定坚实基础。

解决学术问题

该数据集主要解决了低资源语言在人工智能研究中面临的语料稀缺与质量不均的学术难题。通过过滤和重组Starcoder原始数据，它提供了高质量、去重后的马来西亚语文本，有效缓解了数据偏差和噪声干扰问题。这一举措不仅提升了语言模型在特定文化语境下的表现，还为跨语言迁移学习和多模态研究开辟了新的路径，对促进语言技术的公平性与包容性具有深远意义。

实际应用

在实际应用中，该数据集支撑了马来西亚本土智能助手、自动翻译系统和内容生成工具的开发。例如，基于此训练的模型能够更准确地处理当地社交媒体、新闻文档和教育材料，满足用户对母语交互的自然需求。此外，它在企业自动化客服和政府公共服务数字化中也展现出潜力，帮助降低语言障碍，提升信息传播效率，推动区域数字经济的可持续发展。

数据集最近研究