cebolinha-sft

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/monostate/cebolinha-sft

下载链接

链接失效反馈

官方服务：

资源简介：

Cebolinha SFT数据集是一个包含葡萄牙语笑话和双关语的集合，专门修改为模仿巴西著名漫画角色Cebolinha的说话方式，即将大多数'r'音替换为'l'音。数据集适用于语言模型的微调，以便模型能够生成具有Cebolinha特色风格的文本。

创建时间：

2025-11-23

原始信息汇总

Dataset Cebolinha SFT 数据集概述

基本信息

语言：葡萄牙语 (pt)
许可证：CC-BY-SA-4.0
任务类别：文本生成
标签：文本生成、指令遵循、幽默、葡萄牙语、cebolinha
数据规模：1K<n<10K
正式名称：Dataset Cebolinha SFT

数据集描述

本数据集源自 https://huggingface.co/datasets/Superar/Puntuguese，经过转换用于教导语言模型模仿巴西漫画《莫妮卡帮》中深受喜爱的角色Cebolinha的说话方式，该角色将r发音为l。

Cebolinha说话模式特征

在大多数语境中将r替换为l
无法发音rr（变为l）
在说话中保持一致模式

转换示例

"rato" → "lato"
"carro" → "calo"
"por favor" → "pol favol"
"terra" → "tela"
"coração" → "colação"

数据结构

每个样本包含：

text：用于SFT训练的JSON格式聊天消息
original：原始葡萄牙语文本
cebolinha：转换为Cebolinha风格的文本

数据格式

text字段包含聊天格式的JSON字符串： json [ {"role": "user", "content": "Transforme para o estilo Cebolinha: [texto original]"}, {"role": "assistant", "content": "[texto transformado cebolinha]"} ]

数据集统计

训练样本：1995
验证样本：285
测试样本：570

数据来源

原始数据集：https://huggingface.co/datasets/Superar/Puntuguese
原始作者：Marcio Lima Inacio, Gabriela Wick-Pedro, Renata Ramisch等
原始论文："Puntuguese: A Corpus of Puns in Portuguese with Micro-edits" (LREC-COLING 2024)

预期用途

语言模型的微调以模仿Cebolinha的说话模式
具有特定角色特征的文本生成研究
教育和娱乐目的
巴西葡萄牙语自然语言处理研究

许可证

本数据集继承原始Puntuguese数据集的CC-BY-SA-4.0许可证。

引用要求

使用本数据集时需同时引用本工作和原始工作。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建具有特定语言特征的数据集对研究方言变体生成具有重要意义。本数据集基于葡萄牙语双关语语料库Puntuguese进行二次开发，通过系统化音位替换规则将标准葡萄牙语转换为Cebolinha角色的独特发音模式。构建过程采用监督式微调框架，每个样本均包含原始文本与转换后文本的平行语料，并严格遵循该角色将'r'音替换为'l'音的语言特征，最终形成包含1995个训练样本的结构化数据集。

特点

该数据集最显著的特征在于其语言学上的创造性转换，完整保留了巴西经典漫画角色Cebolinha的语言特质。所有文本均经过严格的音系学处理，在保持语义完整性的同时实现发音变异，例如将'rato'转化为'lato'，'carro'转化为'calo'。数据集采用对话式JSON格式组织，每条记录包含用户指令与助手回复的配对结构，既适合模型训练又便于效果验证，为研究特定语言风格的文本生成提供了标准化实验数据。

使用方法

在应用层面，该数据集主要服务于葡萄牙语自然语言处理研究。研究人员可通过加载标准格式的JSON数据，直接用于语言模型的监督式微调训练。使用时应遵循对话格式的预设结构，将用户查询与助手回复作为输入输出对进行模型优化。鉴于数据集的教育研究定位，建议在非商业场景下开展语言风格迁移、角色对话生成等实验，并注意保持对语言障碍群体的尊重态度。

背景与挑战

背景概述

在自然语言处理领域，针对特定语言特征的文本生成研究日益受到关注。Cebolinha-SFT数据集于2024年由AutoTrain贡献者基于LREC-COLING会议发布的Puntuguese语料库构建，其核心研究目标是通过监督微调技术，使语言模型能够模拟巴西经典漫画《莫妮卡娃娃团》中Cebolinha角色的独特发音模式。该数据集聚焦于葡萄牙语文本的语音特征转换，通过系统化处理将辅音'r'转换为'l'的发音规则，为研究方言特征建模和个性化文本生成提供了重要实验基础。

当前挑战

该数据集致力于解决葡萄牙语个性化文本生成中的语音特征模拟难题，主要挑战包括准确捕捉Cebolinha角色发音的语音学规律，确保'r'到'l'转换在不同语境下的语言学一致性。在构建过程中面临双重挑战：其一是需要建立精确的音素转换规则以处理葡萄牙语复杂的音位变体现象，其二是需在保持原始语料幽默特质的同时，完成大规模文本的语音特征转换，这要求对语言结构和文化语境具有深度理解。

常用场景

经典使用场景

在自然语言生成研究领域，Cebolinha-SFT数据集为探索方言特征建模提供了独特视角。该数据集通过将葡萄牙语文本转换为Cebolinha角色的特殊发音模式，构建了包含近三千条训练样本的监督微调语料。研究者可利用该数据集训练语言模型学习特定语音变异规律，例如将'r'音系统性地替换为'l'音，这种细粒度的语音转换任务为研究方言生成机制提供了实验基础。

衍生相关工作

该数据集催生了多项葡萄牙语自然语言处理的前沿研究。基于其构建的语音转换模型扩展了LREC-COLING 2024会议提出的Puntuguese框架，推动了葡萄牙语幽默计算研究的发展。后续工作聚焦于方言保持的文本生成技术，部分研究团队进一步开发了包含多重方言特征的混合数据集，为伊比利亚半岛语言变体的系统性研究奠定了数据基础。

数据集最近研究