JMED-LLM

github2024-07-12 更新2024-07-13 收录

下载链接：

https://github.com/sociocom/JMED-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估日本医疗领域中的大型语言模型。包含分类和命名实体识别任务，数据集包括CRADE、RRTNM、SNSDS、JMMLU-Med、MRPDR、MRMR和NRNER等。

This dataset is intended for evaluating large language models in the Japanese medical domain. It covers classification and named entity recognition (NER) tasks, and includes datasets such as CRADE, RRTNM, SNSDS, JMMLU-Med, MRPDR, MRMR, and NRNER.

创建时间：

2024-07-11

原始信息汇总

JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models

日本語医療分野における大規模言語モデルの評価用データセット

任务/数据集

任务	数据集	许可证	原始数据集
文章分类	CRADE: Case Report Adverse Drug Event	CC-BY-4.0	NTCIR-16 Real-MedNLP (MedTxt-CR)
	RRTNM: Radiology Reports Tumor Nodes Metastasis	CC-BY-4.0	NTCIR17 MedNLP-SC
	SMDIS: Social Media Disease	CC-BY-4.0	NTCIR-13 MedWeb
多肢选择式问题	JMMLU-Med: Japanese Massive Multitask Language Understanding in Medical domain	CC-BY-SA-4.0	JMMLU
固有表現抽出	MRNER-disease: Medical Report Positive Disease Recognition	CC-BY-4.0	NTCIR-16 Real-MedNLP (MedTxt-CR, MedTxt-RR)
	MRNER-medicine: Medical Report Medicine Recognition	CC-BY-4.0	NTCIR-16 Real-MedNLP (MedTxt-CR)
	NRNER: Nursing Report Named Entity Recognition	CC-BY-NC-SA-4.0	NursingRecord_NERdataset
文章類似度	JCSTS: Japanese Clinical Semantic Textual Similarity	CC-BY-NC-SA-4.0	Japanese-Clinical-STS

描述

文章分类

所有任务均由100个数据组成，且为均衡数据集，因此可以使用简单的评估指标如Accuracy进行适当评估。

CRADE: 从病例报告的药品症状中分类出有害事件（ADE）的可能性
RRTNM: 从读影报告中分类出癌症的TNM分期
SMDIS: 从模拟Tweet中分类出是否有疾病或症状

多肢选择式问题

JMMLU-Med: 包含在JMMLU中的医疗问题

固有表現抽出

MRNER-disease: 从病例报告和读影报告中抽取出患者实际出现的症状
MRNER-medicine: 从病例报告和读影报告中抽取出药品相关信息
NRNER: 从模拟看护记录中抽取固有表現

文章類似度

JCSTS: 从两个临床文本中分类出文章類似度

许可证

每个数据集的许可证遵循原始数据集的许可证条款。所有其他组件均在<a rel="license" href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International License</a>下授权。

搜集汇总

数据集介绍

构建方式

JMED-LLM数据集由奈良先端科学技术大学院大学社会计算研究室构建，通过整合和转换现有的公开日本医疗语言处理数据集，以适应大语言模型（LLM）的评估需求。该数据集涵盖了多个医疗任务，包括问答、命名实体识别、文档分类和文本相似度等，旨在为生成式AI在医疗领域的应用提供性能评估的基础。

使用方法

使用JMED-LLM数据集进行评估时，首先需克隆GitHub仓库并安装必要的包。接着，复制并配置config_template.yaml文件，根据实验需求调整模型和提示设置。最后，运行评估脚本以执行评估任务。该数据集适用于多种医疗任务的LLM性能评估，为研究者和开发者提供了标准化的测试平台。

背景与挑战

背景概述

JMED-LLM（Japanese Medical Evaluation Dataset for Large Language Models）是由奈良先端科学技术大学院大学社会计算研究室主导开发的一个专门用于评估大规模语言模型在日语医疗领域应用的数据集。该数据集的构建始于通过共享任务等方式积累的数据，并结合了现有的公开日语医疗数据集，经过转换和整合，形成了适用于LLM评估的任务集。其核心研究问题在于如何有效地评估和选择适用于医疗应用的LLM，以提升生成AI在医疗领域的性能。自2024年7月25日公开以来，JMED-LLM已成为日语医疗语言处理领域的重要资源，对推动相关研究具有显著影响力。

当前挑战

JMED-LLM在构建过程中面临多项挑战。首先，整合来自不同来源和不同许可协议的数据集，确保数据质量和一致性是一个复杂的过程。其次，将这些数据转换为适用于LLM评估的任务格式，需要对医疗领域的专业知识有深入理解。此外，如何设计有效的评估指标和方法，以准确衡量LLM在医疗应用中的性能，也是一个重要的挑战。最后，随着医疗数据的不断更新和扩展，如何持续维护和更新数据集，以保持其时效性和适用性，是该数据集未来需要解决的问题。

常用场景

经典使用场景

JMED-LLM数据集在医疗领域的大规模语言模型评估中扮演着关键角色。其经典使用场景包括通过JMMLU-Med进行医疗领域的多任务语言理解测试，MRNER-disease和MRNER-medicine用于从医疗报告中提取疾病和药物相关信息，以及CRADE用于识别不良药物事件。这些任务不仅涵盖了医疗文本的深度理解，还涉及了实际临床应用中的关键问题。

解决学术问题

JMED-LLM数据集解决了医疗领域中大规模语言模型性能评估的学术研究问题。通过提供多样化的医疗文本处理任务，如问答、命名实体识别和文档分类，该数据集帮助研究人员评估和提升模型在复杂医疗环境中的表现。这不仅推动了医疗AI的发展，还为未来模型的优化提供了宝贵的基准数据。

实际应用

在实际应用中，JMED-LLM数据集被广泛用于开发和验证医疗领域的AI系统。例如，通过MRNER-disease和MRNER-medicine，医疗机构可以自动化提取和分析患者报告中的关键信息，从而提高诊断和治疗的效率。此外，CRADE的应用有助于快速识别潜在的药物不良反应，提升患者安全。

数据集最近研究