HiMed
收藏Hugging Face2026-01-08 更新2026-01-09 收录
下载链接:
https://huggingface.co/datasets/FreedomIntelligence/HiMed
下载链接
链接失效反馈官方服务:
资源简介:
HiMed是一个印地语医疗数据集和基准测试套件,涵盖西方医学和印度传统医学系统。它由两部分组成:HiMed-Trad(印度传统医学)和HiMed-West(印地语提示下的西方医学)。数据集包含多个子集,每个子集有不同的配置名称和文件路径,并提供了各子集的数据量统计信息。
提供机构:
FreedomAI
创建时间:
2026-01-08
原始信息汇总
HiMed 数据集概述
数据集简介
HiMed 是一个印地语医学数据集和基准测试套件,涵盖西方医学和印度传统医学体系。它由两部分组成:
- HiMed-Trad:印度传统医学
- HiMed-West:印地语提示下的西方医学
语言与标签
- 语言:印地语 (hi)、英语 (en)
- 标签:医学 (medical)、基准测试 (benchmark)、问答 (question-answering)
任务类别
- 问答 (question-answering)
规模类别
- 100K < n < 1M
数据集配置与文件结构
数据集包含以下配置,每个配置对应一个数据文件:
| 配置名称 | 数据文件 | 数据分割 |
|---|---|---|
himed_trad_corpus |
data/HiMed-Trad_Corpus.json |
训练集 (train) |
himed_trad_bench |
data/HiMed-Trad_Bench.json |
测试集 (test) |
himed_west_corpus |
data/HiMed-West_Corpus.json |
训练集 (train) |
himed_west_bench |
data/HiMed-West_Bench.json |
测试集 (test) |
himed_west_exam |
data/HiMed-West_Exam.json |
测试集 (test) |
数据规模统计
各子集的具体数据条目数如下:
| 子集 | 数据量 |
|---|---|
| HiMed-Trad Bench | 6,010 |
| HiMed-West Bench | 1,784 |
| HiMed-West Exam | 470 |
| HiMed-Trad Corpus (完整) | 286,657 |
| HiMed-West Corpus (完整) | 116,859 |
快速使用示例
python from datasets import load_dataset
bench = load_dataset("FreedomIntelligence/HiMed", "himed_trad_bench", split="test") print(len(bench), bench[0])
corpus = load_dataset("FreedomIntelligence/HiMed", "himed_trad_corpus", split="train") print(len(corpus), corpus[0])
许可证
- 许可证类型:Apache License 2.0
搜集汇总
数据集介绍

构建方式
在医学信息处理领域,构建高质量的双语数据集对于促进跨语言医疗知识传播至关重要。HiMed数据集的构建采用了系统化的方法,分别针对印度传统医学和西方医学两大体系,通过精心收集和整理印地语与英语的医疗文本,形成了结构化的语料库与评测基准。具体而言,数据集包含五个子集,其中传统医学部分涵盖超过28万条语料和六千余条评测问题,西方医学部分则包含约11万条语料及两千余条评测与考试题目,所有数据均经过严格的格式统一与质量校验,确保了内容的准确性与一致性。
特点
该数据集的核心特点在于其独特的双语覆盖与医学体系划分,不仅融合了印地语和英语两种语言,还细致区分了印度传统医学与西方医学两大知识领域。每个子集均具备明确的用途定位,例如语料库适用于模型预训练,而评测集则专为问答任务设计,这种结构化的设计为研究者提供了灵活的应用场景。此外,数据集规模适中,总计超过四十万条数据,既保证了足够的训练样本,又避免了过度冗余,特别适合用于医疗领域的自然语言处理模型开发与评估。
使用方法
使用HiMed数据集时,研究者可通过Hugging Face平台便捷加载不同配置的子集,例如利用`load_dataset`函数指定`himed_trad_bench`或`himed_west_corpus`等配置名称,即可分别获取评测数据或训练语料。数据集采用JSON格式存储,每个子集独立对应特定的任务目标,用户可根据需要选择传统医学或西方医学部分进行模型训练、微调或性能测试。这种模块化的访问方式不仅简化了数据预处理流程,还支持针对不同医学体系的专项研究,为跨语言医疗人工智能应用提供了坚实的基础设施。
背景与挑战
背景概述
在医疗人工智能领域,跨语言医疗数据的稀缺性长期制约着非英语语种医疗问答系统的发展。HiMed数据集由FreedomIntelligence团队创建,旨在构建一个覆盖印地语医学知识的大规模双语资源库。该数据集系统整合了西方现代医学与传统印度医学两大体系,通过精心设计的问答对与知识语料,为印地语医疗自然语言处理任务提供了关键数据支撑。其核心研究问题聚焦于解决低资源语言在医疗领域的语义理解与知识推理难题,显著推动了多语言医疗AI模型的公平性与可及性。
当前挑战
HiMed数据集所应对的领域挑战在于印地语医疗问答中复杂的术语翻译与跨文化医学概念对齐,例如传统阿育吠陀理论与现代医学术语之间的语义鸿沟。在构建过程中,研究人员面临双重困难:一是高质量双语医疗数据的稀缺性,需从专业文献与临床记录中手动筛选与标注;二是确保西方医学与传统印度医学知识在印地语语境下的准确表达与逻辑一致性,这要求构建者具备跨学科的专业知识以处理异构医学体系的融合问题。
常用场景
经典使用场景
在医疗自然语言处理领域,HiMed数据集为印地语医学文本的理解与生成提供了关键资源。其经典使用场景集中于医学问答任务,通过涵盖传统印度医学与西方医学的双重知识体系,支持模型在多样化医疗语境下的性能评估与优化。研究人员利用该数据集中的基准测试部分,能够系统地训练和验证模型在印地语医学问题解答中的准确性与可靠性,从而推动跨语言医疗人工智能的发展。
实际应用
在实际应用层面,HiMed数据集为开发面向印度及印地语使用者的医疗辅助工具提供了核心支持。基于该数据集训练的模型可应用于智能医疗咨询系统、医学信息检索平台以及临床决策支持工具,帮助医护人员和患者快速获取准确的医学知识。特别是在传统印度医学领域,其应用有助于数字化保存与传播本土医疗智慧,提升基层医疗服务的可及性与质量,具有重要的社会价值。
衍生相关工作
围绕HiMed数据集,学术界衍生出一系列经典研究工作。这些工作主要聚焦于印地语医学大语言模型的预训练与微调,例如开发专门针对传统阿育吠陀医学的问答系统。同时,该数据集也催生了跨语言医学知识迁移、多模态医疗对话生成等前沿探索,为后续构建更全面的多语言医疗基准测试套件提供了重要参考,持续推动着全球医疗人工智能生态的完善与创新。
以上内容由遇见数据集搜集并总结生成



