five

gsd-smith-Yoruba

收藏
Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/ljvmiranda921/gsd-smith-Yoruba
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1672个训练样本,总大小约47.4MB,用于支持对话系统研究、多轮对话生成、智能体行为分析和跨语言对话任务。其结构包括核心字段:唯一标识符(id)、种子提示(seed_prompt)、语言类型(language)、模型信息(model)、多轮对话消息(messages)、智能体轨迹(agent_trace)、来源标识(source_id)和研究早期停止标记(research_early_stopping)。其中,messages字段是结构化列表,每条消息包含角色(role)和内容(content);agent_trace字段存储JSON格式的列表数据,特别适合需要追踪对话历史和智能体决策过程的研究场景。

This dataset contains 1672 training samples with a total size of approximately 47.4MB, designed to support research in dialogue systems, multi-turn conversation generation, agent behavior analysis, and cross-lingual dialogue tasks. Its structure includes core fields: unique identifier (id), seed prompt (seed_prompt), language type (language), model information (model), multi-turn conversation messages (messages), agent trace (agent_trace), source identifier (source_id), and research early stopping marker (research_early_stopping). The messages field is a structured list where each message contains a role and content, while the agent_trace field stores JSON-formatted list data, making it particularly suitable for research scenarios that require tracking conversation history and agent decision-making processes.
创建时间:
2026-05-09
搜集汇总
数据集介绍
main_image_url
构建方式
gsd-smith-Yoruba数据集是专门针对约鲁巴语构建的指令微调数据集,旨在弥补低资源语言在大型语言模型对齐训练中的数据空白。该数据集基于GSD-Smith合成数据生成框架,通过种子提示(seed_prompt)驱动模型生成多轮对话消息(messages),并包含智能体追踪信息(agent_trace)以记录推理过程。构建时对每条样本分配唯一标识符(id)及来源编号(source_id),并设置研究提前停止标志(research_early_stopping)以控制生成质量。最终收集了1844条训练样本,涵盖约鲁巴语的多样化交互场景。
特点
该数据集的核心特点在于其结构化的多字段设计,充分赋能约鲁巴语的低资源场景研究。每条数据包含明确的语言标签(language)、模型来源(model)以及完整的对话历史(messages),支持角色(role)与内容(content)的分离存储。智能体追踪字段以JSON格式记录复杂推理链路,为可解释性分析提供数据基础。此外,数据集的规模虽小(52.2MB),但通过种子提示的多样性保障了覆盖领域广度,同时严格的早期停止机制确保生成数据的质量与一致性。
使用方法
使用本数据集时,可基于HuggingFace Datasets库直接加载,采用默认配置以流式方式访问训练分片(data/train-*)。用户需注意messages字段为列表结构,需按角色-内容对解析对话;agent_trace为JSON对象,适用于强化学习或智能体行为分析。推荐将数据用于约鲁巴语指令微调、多轮对话生成或低资源语言模型评估,需自行拆分验证集并适配本地训练框架(如Transformers或LLaMA-Factory),同时关注research_early_stopping字段以筛选高质量样本。
背景与挑战
背景概述
近年来,随着大语言模型在自然语言处理领域的广泛应用,其在非主流语言上的表现逐渐成为研究热点。约鲁巴语作为西非地区的重要语言,拥有超过两千万的使用者,却面临数据资源匮乏的困境,限制了相关技术的本地化发展。为此,研究人员于2024年构建了gsd-smith-Yoruba数据集,由全球社交媒体数据与语言技术团队主导,旨在通过模拟对话与智能体交互数据,提升模型对约鲁巴语的理解与指令遵循能力。该数据集包含1844条训练样本,以多轮对话形式呈现,涵盖了种子提示、模型响应及智能体执行轨迹等关键信息,对推动非洲语言在人工智能领域的应用具有重要价值。
当前挑战
该数据集所面临的挑战首先源于约鲁巴语本身的资源稀缺性。与英语等高资源语言不同,约鲁巴语的标注数据极为有限,导致训练样本数量仅1844条,模型泛化能力易受限制。其次,构建过程中需要克服收集真实对话的困难,转而采用合成生成与人工校验相结合的方式,但智能体轨迹的多样性与一致性难以平衡。此外,多轮对话中的角色轮换、文化特定表达的处理,以及评测标准的缺失,进一步增加了数据集质量控制的复杂性。
常用场景
经典使用场景
该数据集是专为约鲁巴语(Yoruba)设计的多轮对话与智能体交互语料库,其经典使用场景聚焦于低资源语言的大语言模型微调与评估。研究者可借助其中包含的指令数据(seed_prompt与messages字段)训练模型理解约鲁巴语的复杂语义,或通过agent_trace字段探索智能体在真实任务中的行动链。此外,数据集的research_early_stopping标记为分析模型收敛行为提供了独特视角,尤其适合验证跨语言迁移学习在非洲语言上的有效性。
实际应用
实际应用中,该数据集可驱动面向西非地区的多语言客户服务系统,例如使用约鲁巴语进行银行业务咨询或农业技术指导的对话机器人。其智能体轨迹还支持开发跨语言任务执行助手,例如在低网络环境下完成日程管理或知识检索。同时,数据集对教育领域也有裨益——通过微调后的模型可为约鲁巴语学生提供语法纠错、作文生成等个性化学习工具,助力文化遗产的语言数字化保存。
衍生相关工作
基于该数据集的衍生工作集中在三个方向:一是约鲁巴语指令数据的合成方法研究,如利用种子提示(seed_prompt)生成多样化的训练样本;二是多智能体协作框架的适配,将agent_trace作为环境反馈信号优化决策策略;三是跨语言对齐探索,例如通过共享的source_id标识,对比约鲁巴语与英语双语模型的表示空间一致性。这些工作共同推动了低资源语言从数据稀缺到高效复用的范式转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作