pan-african-primary-care-benchmark

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/nimrodzw/pan-african-primary-care-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对非洲初级医疗场景的多语言安全和推理基准数据集，包含300个合成、去标识的初级医疗场景，覆盖六种非洲语言。数据集用于评估大型语言模型和临床AI在非洲语言环境下的表现，包括理解低资源非洲语言中的患者呈现、正确检测危险信号、推荐或呈现选项、谨慎处理或紧急升级的能力。

创建时间：

2025-11-13

原始信息汇总

Pan-African Primary Care Benchmark (v1) 数据集概述

数据集基本信息

标题：Pan-African Primary Care Benchmark (v1)
语言：Shona、Northern Ndebele、Zulu、Swahili、Amharic、English translations
任务类别：问答、文本生成
标签：医疗、临床推理、安全、危险信号、多语言、非洲语言、低资源语言、初级护理、大语言模型评估
规模：100-1K
许可证：CC-BY-4.0

数据集描述

这是一个多语言安全和推理基准数据集，专为评估临床人工智能在非洲初级护理环境中的表现而设计。数据集包含300个合成的、去标识化的初级护理场景，涵盖6种非洲语言变体，每种语言包含50个场景。

数据文件组成

文件名称	语言	风格/语域	场景数量
shona_slang_primarycare_full_v1.json	Shona	非正式WhatsApp/Twitter俚语	50
shona_indigenous_primarycare_full_v1.json	Shona	标准/正式Shona	50
ndebele_primarycare_full_v1.json	Northern Ndebele	日常津巴布韦Ndebele	50
zulu_primarycare_full_v1.json	Zulu	南非口语化Zulu	50
swahili_primarycare_full_v1.json	Swahili	东/中非日常风格	50
amharic_primarycare_full_v1.json	Amharic	埃塞俄比亚日常Amharic	50

数据字段说明

字段名称	描述
id	唯一标识符
language	患者查询的ISO代码
query	患者实际表达的症状描述
english_translation	字面英文翻译
expected_guidelines	相关指南（WHO IMCI、NICE CKS）
response_type	预期AI行为：推荐、提供选项、弃权、紧急升级
red_flags	无或危险信号
clinical_context	临床背景说明
source_style	来源风格：WhatsApp群组、Facebook、Twitter、诊所就诊

预期用途

临床大语言模型在非洲语言中的安全评估
多语言危险信号检测
测试适当的升级与过度谨慎
代码切换鲁棒性基准测试
不确定性表达和安全弃权研究

局限性

合成场景（专家制作，去标识化）
仅涵盖常见症状（发热、咳嗽、腹泻、皮疹等）
v1版本聚焦六种语言变体，许多非洲语言尚未包含

引用信息

bibtex @dataset{moyo2025pan_african, author = {Nimrod J Moyo}, title = {Pan-African Primary Care Benchmark (v1)}, year = 2025, month = nov, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/nimrodzw/pan-african-primary-care-benchmark}, note = {Multilingual safety benchmark for clinical AI in African primary care} }

注意：这是一个仅供研究和评估使用的数据集，不可用于实际临床用途。

搜集汇总

数据集介绍

构建方式

在非洲基层医疗场景中，语言多样性对临床人工智能提出了独特挑战。该数据集通过专家精心构建了300个去标识化的合成临床场景，均匀覆盖绍纳语、北恩德贝莱语、祖鲁语、斯瓦希里语和阿姆哈拉语六种非洲语言变体。每个语言文件包含50个病例，模拟真实世界患者通过社交媒体或门诊交流的语料风格，并配备精确的英文翻译作为评估基准。数据生成严格遵循世界卫生组织IMCI和英国NICE CKS临床指南，确保场景的医学合理性。

特点

本数据集凸显对低资源非洲语言的深度覆盖，特别收录了绍纳语的口语变体与标准变体对比样本。所有病例标注了明确的响应类型分类与危险标志识别标签，能有效评估模型在多元语言环境下的临床推理能力。病例设计融合了非洲地区常见的代码转换现象和口语表达习惯，例如通过即时通讯软件风格的问诊对话，真实还原基层医疗中的语言使用场景。这种多维度标注体系为评估临床AI的安全性与适应性提供了结构化框架。

使用方法

研究人员可利用该基准测试临床大语言模型在非洲多语言环境下的表现，重点关注危险体征识别与分级诊疗决策能力。评估时应同步分析原始语言查询与英文翻译结果，对照响应类型标注验证模型决策的临床合理性。数据集支持跨语言泛化性研究，通过对比不同语言变体的表现差异，探索低资源语言医疗AI的优化路径。需要强调的是，该数据集仅限研究评估用途，严禁应用于真实临床诊断场景。

背景与挑战

背景概述

随着人工智能在医疗领域的深入应用，临床决策支持系统面临多语言环境下的适应性挑战。Pan-African Primary Care Benchmark数据集由Nimrod J Moyo于2025年创建，聚焦非洲初级医疗场景中的多语言临床推理与安全评估。该数据集涵盖绍纳语、恩德贝莱语、祖鲁语等六种非洲语言变体，通过300个模拟真实医患交互的合成场景，旨在填补低资源语言医疗数据空白，推动遵循WHO IMCI与NICE CKS指南的临床人工智能发展。

当前挑战

该数据集致力于解决非洲多语言环境下初级医疗咨询的语义理解难题，包括方言俚语识别、代码转换处理及危险体征检测等核心问题。在构建过程中面临低资源语言标注体系缺失、文化特异性表达标准化、以及医疗场景语义保真度维持等挑战，同时需平衡语言多样性与临床指南一致性的双重需求。

常用场景

经典使用场景

在非洲基层医疗实践中，患者常以本土语言夹杂俚语描述症状，该数据集通过模拟真实临床对话场景，为多语言临床人工智能系统提供标准化评估框架。其核心应用聚焦于测试模型对绍纳语、祖鲁语等低资源非洲语言的语义理解能力，尤其在识别非正式社交平台（如WhatsApp群组）中混杂代码转换的医疗咨询时，能有效验证模型对发热、咳嗽等常见病症的推理准确性。

解决学术问题

该数据集填补了全球医疗人工智能研究在非洲语言领域的空白，系统解决了低资源语言医疗文本理解、临床危险信号检测、以及遵循WHO IMCI指南的跨语言适配等关键学术问题。通过构建多语言平行语料与标准化响应类型分类，为量化模型在文化适配性医疗决策中的可靠性提供了实证基础，推动临床自然语言处理技术向包容性发展。

衍生相关工作

受该数据集启发，学界涌现出多项聚焦非洲语言医疗文本生成的创新研究，例如结合塞茨瓦纳语与科萨语的症状编码器架构、基于跨语言对齐的临床风险预测模型。这些工作进一步扩展了基准的语种覆盖范围，并衍生出针对非洲方言代码转换场景的鲁棒性评估框架，为全球南方国家的数字健康解决方案树立了技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集