sinhala-sft-dataset

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/Minuri/sinhala-sft-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Sinhala监督微调数据集是一个合并了三个现有Sinhala指令数据集的统一资源，用于Sinhala语言模型的监督微调（SFT）。该数据集遵循标准的Alpaca风格指令-输入-输出格式，涵盖问答、摘要和一般指令跟随等多种任务。数据集包含213,703对样本，其中203,000个用于训练，以Parquet格式存储，大小为167 MB，语言为Sinhala（`si`）。数据集结构包括`instruction`（指令）、`input`（输入）、`output`（输出）和`source`（来源数据集标识）四个字段。适用于Sinhala LLMs的监督微调、Sinhala指令跟随研究以及低资源多语言SFT基准测试。

创建时间：

2026-03-30

原始信息汇总

Sinhala Supervised Fine-Tuning 数据集概述

基本信息

数据集名称：Sinhala SFT Dataset
语言：僧伽罗语 (si)
许可证：cc-by-sa-3.0
任务类别：文本生成、问答
数据规模：100K<n<1M
标签：sinhala, low-resource, instruction-tuning, sft, alpaca, dolly

数据集描述

这是一个用于监督微调（SFT）的僧伽罗语指令遵循数据集，包含213,703个指令-输出对。该数据集是为一项以多样性驱动的僧伽罗语语言模型适应研究而构建的，用于对持续预训练的LLaMA 3.2 1B模型变体进行监督微调。

数据集构成

该数据集合并了三个现有的僧伽罗语指令数据集，形成一个统一的SFT资源。它遵循标准的Alpaca风格的指令-输入-输出格式，涵盖了一系列任务，包括问答、摘要和通用指令遵循。

源数据集

来源 (`source`列中的值)	原始数据集
`ihalage_alpaca`	`ihalage/sinhala-instruction-finetune-large`
`dolly_sinhala`	`Suchinthana/databricks-dolly-15k-sinhala`
`alpaca_sinhala`	`sahanruwantha/alpaca-sinhala`

数据结构

列名	类型	描述
`instruction`	string	提供给模型的指令
`input`	string	指令的可选上下文或输入
`output`	string	期望的响应
`source`	string	源数据集标识符 (3个值)

数据划分

划分	行数
train	203,000
总计	213,703

数据集统计

指标	值
总行数	213,703
格式	Parquet
大小	167 MB
语言	僧伽罗语 (si)
来源数量	3

预期用途

僧伽罗语大语言模型（LLMs）的监督微调（SFT）
僧伽罗语指令遵循研究
低资源多语言SFT基准测试

训练详情

该数据集被用于微调三个LLaMA 3.2 1B模型变体（这三个模型在不同的僧伽罗语语料库上进行了持续预训练）。

相关仓库

仓库	描述
`Minuri/sinhala-corpus-a-news-1m`	预训练语料库A（仅新闻）
`Minuri/sinhala-corpus-b-random-1m`	预训练语料库B（随机）
`Minuri/sinhala-corpus-c-diverse-1m`	预训练语料库C（多样性优化）

搜集汇总

数据集介绍

构建方式

在低资源语言模型适应研究的背景下，sinhala-sft-dataset通过整合三个现有的僧伽罗语指令数据集构建而成。具体而言，该数据集合并了ihalage_alpaca、dolly_sinhala和alpaca_sinhala三个来源，遵循Alpaca风格的指令-输入-输出格式，涵盖了问答、摘要和通用指令跟随等多种任务。这一构建过程旨在为僧伽罗语监督微调提供一个统一且规模化的资源，总计包含213,703对数据，并以Parquet格式存储，确保了数据的结构化和高效访问。

使用方法

该数据集主要用于僧伽罗语语言模型的监督微调，以提升其指令跟随能力。研究人员可直接加载Parquet格式的数据，利用其中的instruction、input和output字段构建训练样本，对预训练模型进行端到端的微调。数据集适用于低资源多语言场景下的基准测试，可评估模型在问答、摘要等任务上的性能。同时，通过source列区分数据来源，用户能针对性地分析不同数据子集的影响，或将其与相关的预训练语料库结合，开展更深入的模型适应研究。

背景与挑战

背景概述

在低资源语言自然语言处理领域，僧伽罗语（Sinhala）作为斯里兰卡官方语言之一，长期面临高质量标注数据稀缺的困境。为促进僧伽罗语大语言模型的发展，研究人员于近期构建了Sinhala Supervised Fine-Tuning Dataset。该数据集由Minuri等机构主导，整合了三个现有指令数据集，形成包含21.3万条指令对的统一资源，遵循Alpaca格式，涵盖问答、摘要等多种任务。其核心研究目标是解决僧伽罗语指令微调数据分散且规模有限的问题，通过提供标准化的大规模监督微调语料，推动僧伽罗语模型在指令遵循与多任务泛化能力上的进步，对低资源语言人工智能应用具有重要示范意义。

当前挑战

该数据集致力于应对僧伽罗语指令遵循模型开发中的关键挑战：低资源语言环境下，模型往往因训练数据不足而表现欠佳，尤其在理解复杂指令、生成连贯且符合文化语境的回应方面存在显著困难。在构建过程中，挑战主要源于多源数据整合：原始数据集在标注质量、任务覆盖和格式规范上存在差异，需进行细致的清洗、去重与对齐，以确保指令-输入-输出结构的一致性；同时，僧伽罗语数字文本资源本就有限，筛选并融合高质量、多样化的指令样本，以平衡任务分布并避免偏见，成为数据集构建的核心难点。

常用场景

经典使用场景

在低资源语言的自然语言处理研究中，Sinhala SFT Dataset 为僧伽罗语大语言模型的监督微调提供了核心支持。该数据集遵循 Alpaca 风格的结构，整合了多个指令遵循任务，如问答、摘要和通用指令响应，使得研究人员能够针对僧伽罗语这一资源稀缺语言，高效训练模型以理解和执行复杂指令。其经典应用场景在于作为基准数据集，用于评估和优化模型在僧伽罗语指令遵循任务上的性能，推动低资源语言模型的适应性研究。

解决学术问题

该数据集直接应对低资源语言环境下监督微调数据匮乏的学术挑战。通过合并多个现有僧伽罗语指令数据集，它构建了一个大规模、多样化的统一资源，解决了僧伽罗语在指令调优领域数据分散且质量参差不齐的问题。这不仅促进了僧伽罗语大语言模型的能力对齐研究，还为多语言模型在资源稀缺语言上的适应性提供了实证基础，对推动语言技术的包容性发展具有重要理论意义。

实际应用

在实际应用层面，Sinhala SFT Dataset 能够赋能面向僧伽罗语用户的智能服务。基于该数据集微调的模型可集成到聊天机器人、教育辅助工具或内容摘要系统中，为斯里兰卡及全球僧伽罗语社群提供更精准的自然语言交互体验。例如，在客户服务自动化或本地化信息处理场景中，此类模型能够理解并生成符合文化语境的僧伽罗语响应，有效缩小数字鸿沟，提升技术服务的语言覆盖范围。

数据集最近研究