five

IndicRxNorm-LexMap-15K

收藏
Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/AXONVERTEX-AI-RESEARCH/IndicRxNorm-LexMap-15K
下载链接
链接失效反馈
官方服务:
资源简介:
IndicRxNorm-LexMap-15K 是一个多语言的印度医药术语指令数据集,专为医药名称理解、RxNorm 标准化、RxCUI 实体链接、结构化药物字段提取和安全非处方临床术语任务而设计。数据集包含两种配置:主要适应数据集和经过整理的基数据集。主要数据集包含 14,910 行数据,支持四种语言/脚本风格(印地语、孟加拉语、Hinglish 和 Banglish)和六种任务类型(如医药名称识别、RxNorm 标准化等)。数据集基于 RxNorm/RxNav 医药术语元数据和 RxCUI 标识符构建,适用于低资源印度临床 NLP 和语音/TTS 预处理任务。数据集明确不用于诊断、治疗计划或处方建议,而是专注于安全的术语标准化任务。

IndicRxNorm-LexMap-15K is a multilingual Indian medical terminology instruction dataset designed for medical name understanding, RxNorm standardization, RxCUI entity linking, structured drug field extraction, and safe over-the-counter clinical terminology tasks. The dataset contains two configurations: the main adaptation dataset and the curated base dataset. The main dataset contains 14,910 rows of data, supporting four language/script styles (Hindi, Bengali, Hinglish, and Banglish) and six task types (such as medical name recognition, RxNorm standardization, etc.). The dataset is built based on RxNorm/RxNav medical terminology metadata and RxCUI identifiers, suitable for low-resource Indian clinical NLP and speech/TTS preprocessing tasks. The dataset explicitly states that it is not intended for diagnosis, treatment planning, or prescription recommendations, but focuses on safe terminology standardization tasks.
创建时间:
2026-05-03
原始信息汇总

数据集概述:IndicRxNorm-LexMap-15K

基本信息

属性 内容
数据集名称 IndicRxNorm-LexMap-15K
许可证 CC BY-NC 4.0(非商业使用)
语言 印地语、孟加拉语、英语(含混合语码 Hinglish 和 Banglish)
规模 10K - 100K 条记录
任务类别 词元分类、文本生成、问答
具体任务 命名实体识别、实体链接、标准化

数据集配置

该数据集包含两个配置:

配置名称 文件 说明
multilingual_rxnorm_normalization multilingual_rxnorm_normalization.jsonl 主数据集,由基础数据集经过适应性数据处理生成,包含原始和增强后的提示-完成字段
curated_base adaptive_upload_indicrxnorm_lexmap_15k.jsonl 原始基础数据集,包含 15,000 条经过人工整理的记录

关键统计信息

主数据集(multilingual_rxnorm_normalization)

指标 数量
总行数 14,910
JSON 解析错误 0
语言/书写风格种类 4
任务类型种类 6

语言分布

语言/风格 行数
Banglish(孟加拉语-英语混合拉丁转写) 3,736
印地语 3,727
Hinglish(印地语-英语混合拉丁转写) 3,725
孟加拉语 3,722

任务分布

任务类型 行数
安全边界拒绝 2,494
术语总结 2,490
药物字段提取 2,485
药物命名实体识别 2,482
RxNorm 实体链接 2,481
RxNorm 标准化 2,478

基础数据集(curated_base)

指标 数量
总行数 15,000
唯一 RxCUI 标识符数量 625
每语言行数 3,750
每任务类型行数 2,500

数据模式

主数据集字段

每条记录包含以下字段:

  • prompt: 原始提示
  • completion: 原始 JSON 完成内容
  • enhanced_prompt: 适应性处理后的提示
  • enhanced_completion: 适应性处理后的 JSON 完成内容
  • context: 紧凑的上下文元数据
  • id: 唯一行标识符
  • language: 语言名称(Hindi/Bengali/Hinglish/Banglish)
  • language_code: 语言代码(hin_Deva/ben_Beng/hi_Latn/bn_Latn)
  • task_type: 任务类型

任务类型说明

任务类型 说明
medicine_ner 识别文本中的药物名称
rxnorm_normalization 将表面形式映射到标准 RxNorm 药物名称
drug_field_extraction 提取药物结构字段(成分、品牌、剂量强度、剂型、RxCUI)
rxnorm_entity_linking 将药物提及链接到 RxNorm 概念唯一标识符
terminology_summary 提供安全的仅限术语的药物记录总结
safety_boundary_refusal 拒绝不安全的药物建议请求

数据来源

数据集基于以下权威医学术语资源生成:

资源 用途 官方链接
RxNorm 标准临床药物名称和医学术语元数据 https://www.nlm.nih.gov/research/umls/rxnorm/index.html
RxNav/RxNorm API 程序化 RxCUI 查询和概念检索 https://lhncbc.nlm.nih.gov/RxNav/APIs/RxNormAPIs.html
ICD-10-CM 术语基础设施(非推断疾病关联) https://www.cdc.gov/nchs/icd/icd-10-cm/index.html

数据集用途

适用场景

  • 药物命名实体识别:在印地语、孟加拉语、Hinglish 和 Banglish 文本中识别药物名称
  • RxNorm 标准化:将多种书写形式的药物名称映射到标准 RxNorm 名称
  • RxCUI 实体链接:将药物提及链接到 RxNorm 概念唯一标识符
  • 药物字段提取:提取成分、品牌、剂量强度、剂型和 RxCUI
  • TTS 语音管道:在语音合成前标准化药物名称
  • 安全拒绝行为:训练模型拒绝不安全的药物建议请求
  • 多语言药物搜索:改进多语言药物检索和转写感知搜索
  • 小型印地语 LLM 微调:为印地语语言模型提供紧凑的指令微调数据

不适用场景

  • 诊断、治疗计划、处方建议
  • 剂量推荐、药物-疾病关联建议
  • 紧急分诊、临床决策支持
  • 替代临床医生判断

数据集创建流程

  1. RxNorm 概念收集:按 TTY 类别(SCD、SBD、BN、MIN、IN)获取概念
  2. 化学名称过滤:去除不适合患者使用的化学/IUPAC 名称
  3. 平衡药物种子选择:平衡常见门诊药物、口服剂型、品牌药和成分多样性
  4. 多语言指令生成:扩展到印地语、孟加拉语、Hinglish 和 Banglish
  5. 安全验证:确保所有完成内容包含安全边界声明
  6. Unicode 安全去重:保留印地语和孟加拉语正确的书写形式
  7. 适应性数据精炼:使用 Adaptive Data 平台进行质量改进

数据质量与安全性

质量检查结果

检查项 结果
基础数据集行数 15,000
唯一 ID 15,000
重复提示-完成对 0
有效 JSON 完成内容 15,000
安全注释存在比例 100%
不安全剂量/治疗模式命中 0
语言分布均衡性 通过
任务分布均衡性 通过

适应性处理前后质量对比

指标 处理前 处理后
质量评分 8.0 9.0
等级 B A
百分位 11.8 33.0
相对提升 12.5%

示例

原始提示(印地语)

इस वाक्य से दवा का नाम पहचानें: मेरी दवा का नाम एस्पिरिन है।

原始完成内容

json { "medicine_mentions": [ { "entity_type": "MEDICINE", "normalized_name": "24 HR aspirin 162.5 MG Extended Release Oral Capsule [Durlaza]", "rxcui": "1665362", "rxnorm_match_status": "matched", "surface_form": "एस्पिरिन" } ], "safety_note": "Terminology normalization only. Not diagnosis, prescription, dosage, or treatment advice." }

搜集汇总
数据集介绍
main_image_url
构建方式
IndicRxNorm-LexMap-15K 是一个面向印度低资源语言的医学术语指令数据集。其构建始于从美国国立医学图书馆的 RxNorm/RxNav 术语库中,按药品类型(如SCD、SBD、BN等)获取核心药物概念,并通过化学名称过滤规则剔除不适用于患者场景的化学物质。随后,采用均衡种子选择策略,优先纳入常见门诊药物、口服剂型及成分多样的药物,避免数据偏向住院用药。每个药物概念被扩展为包含印地语、孟加拉语、Hinglish和Banglish四种语言或语码混合风格的指令样本,并针对每一条样本实施严格的安全性验证,确保不包含任何诊断、剂量建议或治疗方案相关的内容。最后,经过Unicode安全的去重处理,形成15,000条原始基准数据集,并在此基础上通过Adaptive Data平台进行指令微调优化,最终得到包含14,910条样本的主适应数据集。
使用方法
用户可通过HuggingFace Datasets库便捷加载数据集,推荐使用主配置'multilingual_rxnorm_normalization'加载14,910条经过增强的指令数据,也可通过'curated_base'配置获取15,000条原始基准数据。每条样本均以JSON格式呈现,包含prompt、completion、enhanced_prompt、enhanced_completion、context等字段,便于直接用于微调大型语言模型或评估模型在药物命名实体识别、术语标准化、字段提取等任务上的性能。数据集特别适用于低资源印地语和孟加拉语临床NLP研究,以及涉及多语种药物名称处理的语音合成与检索系统开发。开发者在使用时需注意,该数据集严格限定于术语标准化范畴,不应被用于任何形式的诊断、治疗建议或临床决策支持,以确保合规性与安全性。
背景与挑战
背景概述
在低资源印地语和孟加拉语等印度语言的临床自然语言处理领域,药物名称的标准化命名与实体链接是一项关键挑战。由AXONVERTEX AI的Krishnendu Dasgupta等研究人员创建的IndicRxNorm-LexMap-15K数据集,于2024年发布,旨在填补多语言印度医学术语指令数据的空白。该数据集以美国国家医学图书馆的RxNorm/RxNav术语体系为基础,涵盖印地语、孟加拉语、印地英语混合语和孟加拉英语混合语四种语言/文字风格,包含约15,000条经过精心标注的指令数据。它围绕药物命名实体识别、RxNorm标准化、RxCUI实体链接、结构化药物字段提取等六大任务设计,为低资源印度语言临床NLP研究提供了规范化的基准资源,推动了区域语言医疗信息处理的进步。
当前挑战
该数据集所解决的领域核心挑战在于:低资源印度语言中药物名称的形态多样性严重阻碍了临床NLP系统的鲁棒性。患者高频使用的混合脚本(如天城文与拉丁文混写)、口语化转写、品牌名与通用名并存等现象,导致仅依赖英文语料训练的模型无法有效进行标准化映射。在构建过程中,数据创建面临三重挑战:首先,从RxNorm海量概念中筛选适用于患者场景的药物种子,需过滤化学成分冗长的非实用条目并平衡口服与注射药物的比例;其次,在跨语言的指令生成中需确保Unicode安全的去重处理,避免印地语与孟加拉语的天城文和孟加拉文字符因ASCII标准化而被错误合并;最后,必须严格实施安全边界验证,杜绝任何包含剂量、诊断或治疗建议的危险模式,确保所有输出仅限定于术语标准化范畴。
常用场景
经典使用场景
在低资源印度语种的自然语言处理研究中,IndicRxNorm-LexMap-15K数据集被广泛应用于药品名称的命名实体识别(NER)任务。该数据集涵盖了印地语、孟加拉语、Hinglish与Banglish四种语言或脚本风格,为研究人员提供了丰富且真实的药品名词语料。借助该数据集,学者们能够训练和评估在非英语医疗文本中识别药物提及的系统,从而有效应对印度及南亚地区医疗文本中常见的语言混杂、音译变换与拼写变异等挑战,极大提升了低资源语言环境下医疗命名实体识别的准确性与鲁棒性。
解决学术问题
该数据集有效解决了低资源印度语种临床自然语言处理中的核心学术难题——药品名称的标准化映射与概念链接。传统模型在印地语、孟加拉语等语言的药品名称同义词、品牌名与通用名之间的识别上表现欠佳。IndicRxNorm-LexMap-15K通过提供RxNorm标准化规范化(Normalization)和RxCUI实体链接(Entity Linking)的标注数据,使研究者能够将非规整的表面形式映射到美国国立医学图书馆的标准化药物知识体系,填补了多语言药品术语知识图谱构建的空白,并为跨语种的医疗信息检索与知识融合奠定了坚实基础。
实际应用
在实际应用层面,IndicRxNorm-LexMap-15K展现出在智能医疗对话系统、语音助手与文本转语音(TTS)预处理中的独特价值。面对印度用户常以本地语言混杂英语输入的药物查询,该数据集帮助模型准确识别药名、有效成分、剂量与剂型等关键字段,生成结构化的药物元数据。同时,其内置的安全边界拒绝机制能够引导模型拒绝不当的药物建议请求,避免模型在非处方场景下提供诊断或剂量方案,从而在提升医疗术语处理能力的同时,保障交互的安全性与合规性。
数据集最近研究
最新研究方向
在临床自然语言处理领域,面向低资源语言的医学实体标准化与安全交互正成为前沿热点。IndicRxNorm-LexMap-15K数据集针对印度次大陆病人文本中普遍存在的印地语、孟加拉语、印式英语及孟式英语混合拼写与转写变体,构建了从非规范表面形式到RxNorm标准术语及RxCUI唯一标识的结构化映射桥梁。该数据集创新性地融合了命名实体识别、药物字段抽取、标准归一化与安全边界拒绝六大任务,并借助自适应数据平台进行了质量提升与幻觉缓解。其独特价值在于支持跨语言、跨脚本的药品名称理解与语音合成预处理,同时通过严格的安全约束机制——拒绝诊断、处方或剂量建议——确保模型在提供术语帮助时避免误导性临床输出,为低资源医疗AI的可靠部署奠定了关键基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作