ghananlpcommunity/ghana-chat
收藏Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/ghananlpcommunity/ghana-chat
下载链接
链接失效反馈官方服务:
资源简介:
Ghana-Chat是一个大规模、高质量的合成对话数据集,专门用于将大型语言模型(LLMs)扎根于加纳背景。该数据集包含超过226,000个多轮对话,基于真实的加纳新闻文章、从加纳视角报道的国际新闻以及学术研究,旨在填补现代AI在本地化知识方面的空白。数据集格式适用于Hugging Face聊天模板,可用于监督微调、RAG评估和文化对齐。
Ghana-Chat is a large-scale, high-quality synthetic conversational dataset designed specifically to ground Large Language Models (LLMs) in the Ghanaian context. With over 226,000 multi-turn conversations, this dataset bridges the representation gap in modern AI, providing rich, factual, and culturally relevant dialogue based entirely on real Ghanaian news articles, international news reported from a Ghanaian perspective, and academic research. The dataset is formatted to be completely ready for Hugging Face chat templates and is intended for supervised fine-tuning, RAG evaluation, and cultural alignment.
提供机构:
ghananlpcommunity
搜集汇总
数据集介绍

构建方式
Ghana-Chat数据集由加纳NLP社区主导,依托Llama 3.1 70B模型生成,是一项社群驱动的志愿者协作成果。构建过程起始于真实加纳新闻文章与研究摘录的采集,随后将文本馈入大语言模型,指令其生成4至6轮的多轮对话。模型被严格约束,所有回答必须完全基于提供的文本,精准援引其中的日期、事实与数据,杜绝幻觉现象。输出对话进一步被结构化为标准的用户与助手角色交替格式,并采用UltraChat风格,确保对话由浅入深,兼具事实性与自然流畅的交互节奏。
特点
该数据集包含逾22.6万次多轮对话,总轮次接近197万,全部采用英文,是专为加纳语境定制的大规模合成对话资源。其核心特征在于高精度的事实锚定与文化相关性,每段对话均源自真实新闻或学术文献,涵盖本地政治、经济、文化及国际事务的加纳视角。数据格式简洁,仅保留唯一对话标识、来源标签及消息列表,便于直接适配HuggingFace聊天模板。这种设计使数据集兼具广度与深度,有效弥补主流大模型在非洲地域知识上的表征鸿沟。
使用方法
Ghana-Chat可直接用于监督式微调,将基础模型转化为精通加纳知识的对话助手,亦适用于检索增强生成系统的评估环节。使用时,通过HuggingFace数据集库加载训练分片,每条数据包含完整的对话历史,可供灵活提取角色与内容字段。用户可参考示例结构,将消息列表直接嵌入Llama 3、Mistral等模型的聊天模板进行训练。此外,结合原始来源文本与生成对话,可评测模型在多轮上下文中的事实保留与推理能力,助力地域文化的深度对齐与本土化应用开发。
背景与挑战
背景概述
Ghana-Chat数据集由加纳自然语言处理社区于2024年创建,核心贡献者包括Mich-Seth Owusu、Kasuadana Adams等研究人员。该数据集旨在解决主流大语言模型在加纳语境中知识匮乏的问题,通过构建超过22.6万轮、近197万条多轮对话,为模型提供基于真实加纳新闻、学术研究及文化背景的高质量训练数据。其影响力体现在弥合了人工智能在非洲区域知识表征上的鸿沟,为面向加纳的语言模型微调、检索增强生成评估及文化对齐研究提供了关键资源。
当前挑战
该数据集所应对的领域挑战在于主流大语言模型对加纳等非洲区域语境存在严重的知识空白与事实幻觉,难以准确回答当地政治、经济、文化等具体问题。构建过程中面临的挑战包括:从加纳本土新闻及学术文献中高效采集真实、多样化的文本源;利用Llama 3.1 70B模型生成对话时,严格约束其仅基于给定文本产生内容,避免模型自主编造事实;在社区驱动的志愿者协作下,确保百万级数据行的质量与格式一致性,最终形成符合UltraChat标准的对话结构。
常用场景
经典使用场景
Ghana-Chat作为面向加纳语境的大规模合成对话数据集,最经典的用途在于对大型语言模型进行监督式微调,使其具备精准回答加纳本地新闻、政治、经济、文化及学术科研问题的能力。该数据集包含超过22.6万轮多轮对话,每一轮对话都严格基于真实的加纳新闻文章或学术摘要生成,确保模型在回答时能够引用具体日期、事实与数据,避免产生幻觉。通过这种高质量、低幻觉的训练范式,研究者能够高效地将通用大语言模型转化为深谙加纳国情的对话助手,显著提升模型在低资源区域知识问答上的表现。
解决学术问题
Ghana-Chat的出现有效缓解了大型语言模型在非洲本土知识表征上的严重缺失问题。主流模型在处理加纳相关提问时,常因缺乏本地化训练数据而虚构事实或给出泛泛之谈。该数据集通过提供结构严密、事实锚定的对话样本,使模型能够学习如何基于真实文本进行推理与解答,从而大幅降低幻觉率。这一突破为非洲语境下的自然语言处理研究奠定了数据基础,推动了低资源区域知识增强、文化对齐以及检索增强生成系统评估等学术方向的发展。
衍生相关工作
Ghana-Chat的发布催生了一系列围绕非洲语境对话数据集构建与评估的学术工作。研究者借鉴其基于新闻与学术文本生成多轮对话的流程,开发了面向尼日利亚、肯尼亚等国家的类似数据集。同时,该数据集常被用作基准,比较不同微调策略(如全量微调与参数高效微调)在低资源区域知识注入上的效果。此外,部分工作进一步探索了如何利用Ghana-Chat训练模型从事跨文化情感分析与当地新闻事实验证,推动了多语言、多文化自然语言理解的前沿范式。
以上内容由遇见数据集搜集并总结生成



