Malay-Dialect-Reasoning

Name: Malay-Dialect-Reasoning
Creator: Mesolitica
Published: 2025-05-23 23:26:29
License: 暂无描述

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/mesolitica/Malay-Dialect-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于马来语方言推理任务的数据集，包含马来语的内容和对应的解决方案。数据集由马来语方言翻译任务的数据组成，分为训练集和测试集，每个集合都包含反向方言翻译和方言翻译的数据。数据集用于预热在线强化学习。

提供机构：

Mesolitica

创建时间：

2025-05-23

原始信息汇总

Malay Dialect Reasoning 数据集概述

数据集基本信息

语言：马来语（ms）
下载大小：19,907,369 字节
数据集大小：45,772,481 字节

数据集特征

content：字符串类型
solution：字符串类型
language：字符串类型
malay：字符串类型

数据集划分

reverse_dialect_translation_train
- 字节数：23,623,544
- 样本数：4,474
reverse_dialect_translation_test
- 字节数：368,180
- 样本数：70
dialect_translation_train
- 字节数：21,453,431
- 样本数：4,463
dialect_translation_test
- 字节数：327,326
- 样本数：70

数据来源与生成

原始数据集：malaysia-ai/DBP-Dialect
生成模型：mesolitica/Malaysian-Qwen2.5-72B-Reasoning-SFT-v0.1
生成方式：使用 few-shots prompts 模板生成

评估信息

划分比例：测试集与训练集的比例为 10:balance
目的：用于在线强化学习的预热

搜集汇总

数据集介绍

构建方式

Malay-Dialect-Reasoning数据集源于对马来西亚方言推理任务的深入研究，其构建过程采用了先进的少样本提示模板技术。原始数据来自malaysia-ai/DBP-Dialect数据集，经由mesolitica/Malaysian-Qwen2.5-72B-Reasoning-SFT-v0.1模型进行智能化生成处理。为确保数据质量，构建者对每个方言类别采用了10:平衡比例进行训练集与测试集的划分，这种严谨的构建方法为方言推理研究提供了可靠的数据基础。

使用方法

研究人员可通过HuggingFace平台便捷获取该数据集，其标准化的数据分割方式为模型训练与评估提供了明确指引。逆向与正向方言翻译任务的独立数据集设计，支持双向方言转换研究的开展。建议使用者遵循原始10:平衡比例划分，充分利用训练集进行模型优化，并通过独立测试集验证模型在方言推理任务上的泛化能力。

背景与挑战

背景概述

Malay-Dialect-Reasoning数据集源于对马来语方言处理与推理能力的研究需求，由马来西亚人工智能研究机构malaysia-ai基于DBP-Dialect原始数据集构建，并经由mesolitica团队开发的72B参数大模型通过少样本提示模板生成。该数据集创建于大语言模型技术快速发展的背景下，旨在通过方言翻译与逆向翻译任务，提升模型对马来语多样方言变体的语义理解与逻辑推理能力。作为马来语自然语言处理领域的重要资源，其通过强化学习预热阶段的专项设计，为低资源方言的机器学习应用提供了新的研究范式。

当前挑战

该数据集面临的核心挑战体现在方言处理的复杂性上：马来语方言存在显著的地区性变异，模型需克服音系、词汇及句法的非标准化差异以实现准确翻译。构建过程中，数据生成依赖少样本提示模板，如何保证生成内容的多样性与准确性成为技术难点；同时，训练集与测试集10:平衡比例的划分策略，要求模型在有限标注数据下具备强泛化能力。在线强化学习预热场景的应用目标，进一步要求数据集能有效支撑模型在动态环境中的持续优化。

常用场景

经典使用场景

在马来语方言研究领域，Malay-Dialect-Reasoning数据集通过其独特的方言翻译和逆向翻译任务，为语言模型提供了丰富的训练素材。该数据集特别适用于探索马来语不同方言之间的语义转换规律，研究人员可以利用其构建的平行语料，深入分析方言间的词汇、语法差异及其映射关系。

解决学术问题

该数据集有效解决了低资源方言机器翻译中的核心难题，尤其是针对马来语方言间缺乏高质量平行语料的问题。通过提供标准马来语与多种方言的双向转换样本，为构建方言感知的神经机器翻译模型奠定数据基础，显著提升了方言翻译任务的准确性和鲁棒性。

实际应用

在实际应用中，该数据集支撑了马来西亚地区智能客服系统的方言适配功能，使政府服务热线能自动识别和处理不同方言的民众咨询。同时为教育领域开发方言保护工具提供支持，帮助记录和传承濒危方言的语言特征。

数据集最近研究