five

dataset_eng_cleaned

收藏
Hugging Face2025-11-02 更新2025-11-03 收录
下载链接:
https://huggingface.co/datasets/notlath/dataset_eng_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
Symptom2Disease Filipino Dataset包含症状描述与疾病标签的映射,全部以菲律宾语呈现。该数据集可用于训练模型,以根据症状描述对疾病进行分类。
创建时间:
2025-11-01
原始信息汇总

Symptom2Disease Filipino Dataset 概述

数据集基本信息

  • 许可证: CC BY 4.0
  • 任务类别: 文本分类
  • 语言: 菲律宾语
  • 数据规模: 小于1K样本

数据集用途

  • 用于训练基于症状描述进行疾病分类的模型
  • 支持菲律宾语健康症状理解

数据集结构

  • 每个样本包含两个字段:
    • label: 疾病名称
    • text: 菲律宾语自然语言描述的症状

数据统计

  • 总样本数: 4380
  • 疾病种类: 6种
  • 包含疾病: 登革热、腹泻、肺炎、流感、麻疹、伤寒

使用方式

python from datasets import load_dataset dataset = load_dataset("notlath/dataset_eng_cleaned")

搜集汇总
数据集介绍
main_image_url
构建方式
在医疗文本分类领域,Symptom2Disease Filipino数据集通过系统化采集菲律宾语临床文本构建而成。该数据集采用症状描述与疾病标签的映射机制,从真实医疗场景中提取了涵盖六类常见疾病的文本样本,包括登革热、腹泻、肺炎等典型病例。数据构建过程注重语言的自然性和医学准确性,确保了症状描述的临床相关性。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集进行模型训练。典型应用流程包括使用datasets库的load_dataset函数加载数据,继而通过train_test_split方法划分训练测试集。该数据集适用于文本分类任务,特别是医疗症状到疾病的映射预测,支持深度学习模型在菲律宾语医疗领域的跨语言迁移学习。用户可根据需要调整数据分割比例,以适配不同的实验设计需求。
背景与挑战
背景概述
在医疗自然语言处理领域,多语言健康数据的稀缺性构成了重要研究障碍。Symptom2Disease Filipino数据集应运而生,专注于菲律宾语症状描述与疾病分类的映射关系。该数据集由研究人员notlath构建,旨在解决菲律宾语医疗文本理解的核心问题,通过4380条标注样本覆盖登革热、腹泻等六类常见疾病,为低资源语言的医疗人工智能应用提供了关键基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需要克服医疗术语多义性带来的分类歧义,以及症状描述主观性导致的标注不一致;在构建过程中,菲律宾语医疗文本资源匮乏构成主要障碍,同时专业医学知识标注需要跨领域协作,而小规模数据特性又对模型泛化能力提出更高要求。
常用场景
经典使用场景
在医疗自然语言处理领域,该数据集为菲律宾语症状描述与疾病分类任务提供了重要支撑。研究人员可利用其4380条标注数据,构建基于症状文本的疾病自动分类模型,涵盖登革热、腹泻、肺炎等六种常见疾病的识别。这种应用不仅促进了医疗诊断辅助系统的发展,还为低资源语言的医疗NLP研究开辟了新路径。
解决学术问题
该数据集有效解决了菲律宾语医疗文本资源匮乏的学术困境,为跨语言医疗NLP研究提供了基准数据。通过症状描述与疾病标签的精确映射,支持了疾病分类算法的开发与验证,推动了医疗领域小语种自然语言处理技术的发展。其存在填补了东南亚地区本土化医疗人工智能研究的空白,具有重要的学术价值。
实际应用
在实际医疗场景中,该数据集支撑的模型可部署于初级医疗咨询系统,帮助非专业医务人员根据患者描述的症状进行初步疾病筛查。在菲律宾乡村医疗资源有限的地区,此类系统能够提供及时的健康评估服务,缓解专业医生不足的压力。同时也可用于医疗教育领域,作为症状识别训练的辅助工具。
数据集最近研究
最新研究方向
在医疗自然语言处理领域,该菲律宾语症状-疾病分类数据集正推动跨语言医疗诊断模型的发展。随着全球健康公平性议题的持续升温,针对低资源语言的医疗文本分析成为学界焦点,该数据集为构建菲律宾语医疗助手提供了关键语料支撑。当前研究主要集中于融合多模态临床数据与症状文本的联合建模,探索迁移学习在热带疾病早期预警系统的应用潜力。此类工作不仅助力弥合数字医疗的语言鸿沟,更为东南亚地区公共卫生监测体系提供了智能化技术基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作