gsd-smith-Yoruba

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/ljvmiranda921/gsd-smith-Yoruba

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1672个训练样本，总大小约47.4MB，用于支持对话系统研究、多轮对话生成、智能体行为分析和跨语言对话任务。其结构包括核心字段：唯一标识符（id）、种子提示（seed_prompt）、语言类型（language）、模型信息（model）、多轮对话消息（messages）、智能体轨迹（agent_trace）、来源标识（source_id）和研究早期停止标记（research_early_stopping）。其中，messages字段是结构化列表，每条消息包含角色（role）和内容（content）；agent_trace字段存储JSON格式的列表数据，特别适合需要追踪对话历史和智能体决策过程的研究场景。

This dataset contains 1672 training samples with a total size of approximately 47.4MB, designed to support research in dialogue systems, multi-turn conversation generation, agent behavior analysis, and cross-lingual dialogue tasks. Its structure includes core fields: unique identifier (id), seed prompt (seed_prompt), language type (language), model information (model), multi-turn conversation messages (messages), agent trace (agent_trace), source identifier (source_id), and research early stopping marker (research_early_stopping). The messages field is a structured list where each message contains a role and content, while the agent_trace field stores JSON-formatted list data, making it particularly suitable for research scenarios that require tracking conversation history and agent decision-making processes.

创建时间：

2026-05-09

搜集汇总

数据集介绍

构建方式

gsd-smith-Yoruba数据集是专门针对约鲁巴语构建的指令微调数据集，旨在弥补低资源语言在大型语言模型对齐训练中的数据空白。该数据集基于GSD-Smith合成数据生成框架，通过种子提示（seed_prompt）驱动模型生成多轮对话消息（messages），并包含智能体追踪信息（agent_trace）以记录推理过程。构建时对每条样本分配唯一标识符（id）及来源编号（source_id），并设置研究提前停止标志（research_early_stopping）以控制生成质量。最终收集了1844条训练样本，涵盖约鲁巴语的多样化交互场景。

特点

该数据集的核心特点在于其结构化的多字段设计，充分赋能约鲁巴语的低资源场景研究。每条数据包含明确的语言标签（language）、模型来源（model）以及完整的对话历史（messages），支持角色（role）与内容（content）的分离存储。智能体追踪字段以JSON格式记录复杂推理链路，为可解释性分析提供数据基础。此外，数据集的规模虽小（52.2MB），但通过种子提示的多样性保障了覆盖领域广度，同时严格的早期停止机制确保生成数据的质量与一致性。

使用方法

使用本数据集时，可基于HuggingFace Datasets库直接加载，采用默认配置以流式方式访问训练分片（data/train-*）。用户需注意messages字段为列表结构，需按角色-内容对解析对话；agent_trace为JSON对象，适用于强化学习或智能体行为分析。推荐将数据用于约鲁巴语指令微调、多轮对话生成或低资源语言模型评估，需自行拆分验证集并适配本地训练框架（如Transformers或LLaMA-Factory），同时关注research_early_stopping字段以筛选高质量样本。

背景与挑战

背景概述

近年来，随着大语言模型在自然语言处理领域的广泛应用，其在非主流语言上的表现逐渐成为研究热点。约鲁巴语作为西非地区的重要语言，拥有超过两千万的使用者，却面临数据资源匮乏的困境，限制了相关技术的本地化发展。为此，研究人员于2024年构建了gsd-smith-Yoruba数据集，由全球社交媒体数据与语言技术团队主导，旨在通过模拟对话与智能体交互数据，提升模型对约鲁巴语的理解与指令遵循能力。该数据集包含1844条训练样本，以多轮对话形式呈现，涵盖了种子提示、模型响应及智能体执行轨迹等关键信息，对推动非洲语言在人工智能领域的应用具有重要价值。

当前挑战

该数据集所面临的挑战首先源于约鲁巴语本身的资源稀缺性。与英语等高资源语言不同，约鲁巴语的标注数据极为有限，导致训练样本数量仅1844条，模型泛化能力易受限制。其次，构建过程中需要克服收集真实对话的困难，转而采用合成生成与人工校验相结合的方式，但智能体轨迹的多样性与一致性难以平衡。此外，多轮对话中的角色轮换、文化特定表达的处理，以及评测标准的缺失，进一步增加了数据集质量控制的复杂性。

常用场景

经典使用场景

该数据集是专为约鲁巴语（Yoruba）设计的多轮对话与智能体交互语料库，其经典使用场景聚焦于低资源语言的大语言模型微调与评估。研究者可借助其中包含的指令数据（seed_prompt与messages字段）训练模型理解约鲁巴语的复杂语义，或通过agent_trace字段探索智能体在真实任务中的行动链。此外，数据集的research_early_stopping标记为分析模型收敛行为提供了独特视角，尤其适合验证跨语言迁移学习在非洲语言上的有效性。

实际应用

实际应用中，该数据集可驱动面向西非地区的多语言客户服务系统，例如使用约鲁巴语进行银行业务咨询或农业技术指导的对话机器人。其智能体轨迹还支持开发跨语言任务执行助手，例如在低网络环境下完成日程管理或知识检索。同时，数据集对教育领域也有裨益——通过微调后的模型可为约鲁巴语学生提供语法纠错、作文生成等个性化学习工具，助力文化遗产的语言数字化保存。

衍生相关工作

基于该数据集的衍生工作集中在三个方向：一是约鲁巴语指令数据的合成方法研究，如利用种子提示（seed_prompt）生成多样化的训练样本；二是多智能体协作框架的适配，将agent_trace作为环境反馈信号优化决策策略；三是跨语言对齐探索，例如通过共享的source_id标识，对比约鲁巴语与英语双语模型的表示空间一致性。这些工作共同推动了低资源语言从数据稀缺到高效复用的范式转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集