mauxitalk-persian

Hugging Face2024-11-29 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/xmanii/mauxitalk-persian

下载链接

链接失效反馈

官方服务：

资源简介：

MauxiTalk是一个高质量的波斯语对话数据集，包含2000多个对话，这些对话是从SmolTalk数据集精心翻译而来，使用了先进的语言模型。该数据集特别适合用于训练和微调大型语言模型（LLMs），采用监督微调（SFT）技术。数据集的特点包括2000个自然的波斯语对话，涵盖日常生活的多个主题，角色基础的对话格式（用户/助手），以及使用GPT-4o-mini进行的高质量翻译。每个对话都遵循特定的JSON格式，包含消息列表和完整主题。数据集的统计信息显示总共有2000个对话，平均每个对话有4-8条消息，涵盖50多个主题，格式为JSONL，总大小为2.85 MB，下载大小为1.17 MB。数据集的来源是SmolTalk，翻译模型为GPT-4o-mini，并进行了自动一致性检查。该数据集适用于训练波斯语语言模型、微调现有LLMs、开发对话AI系统、波斯语NLP研究以及创建波斯语聊天机器人。

创建时间：

2024-11-29

原始信息汇总

MauxiTalk: High-Quality Persian Conversations Dataset

描述

MauxiTalk 是一个包含 2,000 多个高质量波斯语对话的数据集，这些对话是从 SmolTalk 数据集精心翻译而来的，使用了先进的语言模型。该数据集特别适用于使用监督微调（SFT）技术训练和微调大型语言模型（LLMs）。

关键特性

包含 2,000 个自然的波斯语对话
多样化的主题，包括日常生活、工作、旅行等
基于角色的对话格式（用户/助手）
使用 GPT-4o-mini 进行高质量翻译
非常适合 LLM 训练和微调

数据集结构

每个对话遵循以下格式： json { "messages": [ {"role": "user", "content": "波斯语消息"}, {"role": "assistant", "content": "波斯语回复"} ], "full_topic": "对话主题" }

使用案例

训练波斯语语言模型
微调现有的 LLMs 以适应波斯语
开发对话式 AI 系统
波斯语 NLP 研究
创建波斯语聊天机器人

数据集统计

总对话数：2,000
每对话平均消息数：4-8
涵盖的主题数：50+
格式：JSONL
总大小：2.85 MB
下载大小：1.17 MB

技术细节

源数据集：SmolTalk
翻译模型：GPT-4o-mini
质量保证：自动一致性检查
格式：Hugging Face 数据集
特征：
- messages: List[Dict]
  - content: string
  - role: string
- full_topic: string

引用

如果您在研究中使用此数据集，请引用： bibtex @dataset{mauxitalk2024, name = {MauxiTalk}, author = {Maux AI}, year = {2024}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/xmanii/mauxitalk-persian} }

许可证

该数据集基于 MIT 许可证发布。

搜集汇总

数据集介绍

构建方式

MauxiTalk-Persian数据集通过精心翻译SmolTalk数据集构建而成，利用了先进的语言模型GPT-4o-mini进行高质量的波斯语翻译。该数据集包含了2,000多个自然对话，涵盖了日常生活、工作、旅行等多个主题，采用用户与助手的角色对话格式，确保了对话的多样性和真实性。此外，数据集还经过了自动化的质量检查，以确保翻译的一致性和准确性。

特点

MauxiTalk-Persian数据集的主要特点在于其高质量的波斯语对话内容和多样化的主题覆盖。数据集中的对话不仅自然流畅，而且涵盖了广泛的话题，适合用于训练和微调大型语言模型。此外，数据集采用了用户与助手的角色对话格式，使得其在开发对话式AI系统时具有显著的优势。

使用方法

MauxiTalk-Persian数据集适用于多种应用场景，包括训练波斯语语言模型、微调现有的大型语言模型、开发波斯语对话AI系统以及进行波斯语自然语言处理研究。用户可以通过Hugging Face平台轻松访问和下载该数据集，并将其用于各种研究和开发项目中。

背景与挑战

背景概述

MauxiTalk-Persian数据集是由Maux AI团队精心构建的高质量波斯语对话数据集，旨在为大型语言模型（LLMs）的训练与微调提供丰富的资源。该数据集于2024年发布，包含了2000多条自然对话，涵盖日常生活、工作、旅行等多个主题。通过使用先进的GPT-4o-mini模型，MauxiTalk-Persian从原始的SmolTalk数据集中翻译而来，确保了对话的高质量和多样性。该数据集的发布不仅推动了波斯语自然语言处理（NLP）领域的研究，还为开发波斯语聊天机器人和对话系统提供了宝贵的资源。

当前挑战

MauxiTalk-Persian数据集在构建过程中面临了多个挑战。首先，波斯语作为一种资源相对较少的语言，其高质量翻译和语料库的获取本身就是一个难题。其次，确保翻译后的对话在语义和语法上的准确性，以及保持对话的自然流畅性，也是一项技术挑战。此外，数据集的多样性和覆盖范围需要精心设计，以确保训练出的模型能够应对各种实际场景。最后，如何在有限的资源下进行有效的质量控制和一致性检查，也是该数据集构建过程中需要克服的难题。

常用场景

经典使用场景

MauxiTalk-Persian数据集以其高质量的波斯语对话内容，成为训练和微调大型语言模型（LLMs）的理想选择。该数据集包含了2000多条自然对话，涵盖日常生活的多个方面，如工作、旅行等，采用用户与助手的角色对话形式，非常适合用于开发波斯语的对话式AI系统。

衍生相关工作

基于MauxiTalk-Persian数据集，研究者们开发了多种波斯语语言模型和对话系统。例如，一些研究团队利用该数据集进行监督微调（SFT），提升了现有模型的波斯语理解和生成能力。此外，该数据集还激发了波斯语NLP领域的多项研究，推动了波斯语自然语言处理技术的发展。

数据集最近研究