five

MBZUAI-Paris/Egyptian-SFT-Mixture

收藏
Hugging Face2025-06-17 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/MBZUAI-Paris/Egyptian-SFT-Mixture
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了尼罗河聊天(Nile-Chat)的监督微调样本,样本使用阿拉伯语和拉丁文两种脚本。数据集主要分为原生和合成两个主要类别,原生数据集是从现有的公共资源中收集和筛选而来,而合成数据集是基于提示指导的翻译,将基于英语的内容翻译成埃及阿拉伯语。数据集包括机器翻译短句、长文档、转写等样本,以及合成数据集中的Aya Collection、Tülu-v2&3-mix、UltraChat、WildChat(拉丁文)和基准测试样本。此外,还包括用于训练模型自我识别的硬编码问题。

This dataset contains Supervised Fine-Tuning samples for Nile-Chat in both Arabic and Latin scripts. It is mainly divided into two categories: Native and Synthetic Egyptian Instruction Datasets. The Native datasets are collected and filtered from existing public resources, while the Synthetic datasets are the result of prompt-guided translations of English-based content. The dataset includes samples such as Machine Translation short sentences, long documents, transliteration, and subsets like Aya Collection, Tülu-v2&3-mix, UltraChat, WildChat (Latin), and benchmark samples. Additionally, it includes hardcoded questions for training the model to self-identify.
提供机构:
MBZUAI-Paris
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作