JPHARMABENCH

Name: JPHARMABENCH
Creator: EQUES Inc., The University of Tokyo, University of Tsukuba
Published: 2025-05-22 21:27:37
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16661v1

下载链接

链接失效反馈

官方服务：

资源简介：

JPHARMABENCH是一个为评估日本医药领域的语言模型而构建的基准数据集，包括三个子数据集：YakugakuQA、NayoseQA和SogoCheck。YakugakuQA基于日本国家药师资格考试，包含3,021个问题；NayoseQA用于评估药物名称和活性成分的标准化，包含34,769个问题；SogoCheck用于检测配对文本之间的逻辑或事实不一致，包含200个问题。这些数据集基于公开可用的数据构建，旨在反映医药公司实际操作中遇到的各种情况，如监管和文书工作。这些数据集为日本医药领域的语言模型评估提供了宝贵的资源。

提供机构：

EQUES Inc., The University of Tokyo, University of Tsukuba

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

JPHARMABENCH数据集的构建基于日本药师国家考试、KEGG DRUG数据库以及日本药典等权威资源，通过多阶段筛选和清洗流程确保数据质量。具体而言，YakugakuQA部分收集了2012至2024年的考试题目，排除了图像类试题，涵盖药理学、化学等九大学科；NayoseQA通过人工标注和术语对齐构建了34,769条跨语言药物同义词对；SogoCheck则采用LLM生成与人工验证相结合的方式，创建了200组药品说明文档的矛盾检测样本。数据预处理阶段应用了D4算法进行语义去重，最终形成涵盖事实回忆、术语归一化和逻辑一致性检测的多维度评估体系。

特点

该数据集的核心特点体现在三个方面：任务设计的实用性上，YakugakuQA模拟真实药师资格考试场景，包含3,021道带标准答案的多选题；术语处理的复杂性方面，NayoseQA涵盖日英双语药物品牌名、化学名等34,769组术语映射，反映实际医药文档中的命名变异问题；评估维度的创新性上，SogoCheck通过200组语句对检测模型在药品说明一致性方面的推理能力，填补了现有评测在逻辑严谨性验证方面的空白。所有数据均经过领域专家和语言模型的双重校验，确保专业性与语言质量的平衡。

使用方法

使用该数据集时，建议采用分层评估策略：对于YakugakuQA可采用5-shot提示工程评估模型事实性知识掌握程度；NayoseQA适合测试模型在零样本设置下的术语标准化能力；SogoCheck则需设计特殊提示模板检验跨语句逻辑推理。评估时应控制变量，统一使用精确匹配（exact match）作为指标，注意区分单多选题的评分差异。数据集支持端到端评估流程，可与IgakuQA等现有医疗基准进行对比研究，但需注意图像类问题的缺失可能影响化学等学科评估的全面性。

背景与挑战

背景概述

JPHARMABENCH是由EQUES Inc.、东京大学和筑波大学的研究团队于2025年推出的日语药物领域专用评估基准。作为日本首个聚焦药物自然语言处理的评测体系，它包含基于国家药剂师资格考试的YakugakuQA、跨语言术语归一化任务NayoseQA，以及创新性文档一致性检测任务SogoCheck。该数据集填补了日语药物NLP领域缺乏系统性评估工具的空白，其构建融合了13年药剂师考试真题、KEGG DRUG数据库和日本药典等权威数据源，为药物文档标准化、术语规范化等实际应用场景提供了量化评估标准。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决药物文档中专业术语的跨语言映射（如日语商品名与英语化学名的对应）、复杂药理知识推理（如药剂师考试中的多步计算题）以及法规文档的语义一致性检测等难题；在构建过程中，需克服药剂师考试图像题的数据缺失、人工标注一致性校验的高成本，以及通过LLM生成矛盾语句时真实性与多样性的平衡问题。特别在SogoCheck任务中，现有模型对表面文本差异的检测准确率不足40%，揭示出药物文档语义对齐这一核心挑战。

常用场景

经典使用场景

JPHARMABENCH作为首个针对日语药品领域的评估基准，其经典使用场景聚焦于药品注册文档的标准化处理与术语归一化任务。在药品监管机构日常工作中，模型通过YakugakuQA基准模拟药师资格考试题目解答，验证其对《日本药典》等专业知识的掌握程度；NayoseQA则复现了药品说明书品牌名与化学名的映射场景，解决了跨国药企多语言文档中的术语对齐问题；而SogoCheck通过语句对矛盾检测，直接服务于药品上市后安全性监测中的不良反应报告一致性核查。

衍生相关工作

该数据集催生了多个里程碑式研究：1）基于YakugakuQA的MedPrompt-JP方法将药师考试准确率提升至87.9%；2）NayoseQA启发的DrugSynoBERT成为日本PMDA术语标准化推荐工具；3）SogoCheck衍生的ConsistPharma框架被纳入《人工智能药品监管指南》。东京大学团队进一步扩展构建了包含药品化学结构的多模态评测基准PharmaMMLU，推动领域向跨模态理解发展。

数据集最近研究