mesolitica/Malaysian-SFT

Name: mesolitica/Malaysian-SFT
Creator: mesolitica
Published: 2025-07-04 05:40:30
License: 暂无描述

Hugging Face2025-07-04 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/mesolitica/Malaysian-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

Malaysian-SFT数据集是一个包含多个子数据集的集合，涵盖了马来西亚的通用问答、社交媒体问答、非土著问答、谚语指令、翻译、爪夷语对话、代码指令、马来西亚方言指令、语法错误指令等多种类型。额外数据集强调了标准马来语、英语、普通话、泰米尔语、爪夷语的强制使用，以及JSON格式、函数调用、翻译、验证的CoT和特定的提示模板。数据集经过后处理，包括字符级和词级的重复检查，以及移除包含俄文字符、特定奇怪字符和保留关键词的内容。

The Malaysian-SFT dataset is a collection of multiple sub-datasets covering various types such as general Q&A, social media Q&A, non-Bumiputera Q&A, proverb instructions, translations, Jawi conversations, code instructions, Malaysian dialect instructions, and grammatical error instructions. The extra datasets emphasize the mandatory use of standard Malay, English, Mandarin, Tamil, and Jawi, as well as JSON format, function calls, translations, verified CoT, and specific prompt templates. The dataset has undergone postprocessing, including character-level and word-level duplication checks, and the removal of content containing Russian characters, specific weird characters, and reserved keywords.

提供机构：

mesolitica

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于监督微调（SFT）的大规模多语言指令数据集，核心聚焦于马来语，并融合了英语、泰米尔语等多种语言内容。它整合了超过450万条数据，来源于20多个子集，涵盖数学解题、代码生成、对话、翻译等多种任务类型，并经过了严格的数据清洗和后处理。数据集主要用于训练或微调能够理解和生成马来语及其他语言内容的大语言模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集