JMedBench

arXiv2024-09-20 更新2024-09-26 收录

下载链接：

https://huggingface.co/datasets/Coldog2333/JMedBench

下载链接

链接失效反馈

官方服务：

资源简介：

JMedBench是由东京大学和国立情报学研究所创建的日本生物医学大型语言模型评估基准。该数据集包含20个数据集，涵盖多选题问答、命名实体识别、机器翻译、文档分类和语义文本相似性五个任务，共有38,130个测试样本。数据集的创建过程包括收集现有的人工制造的日本数据集，并将高质量的英文数据集翻译成日文以增强数据集的规模和多样性。JMedBench旨在解决日本生物医学领域大型语言模型的评估和比较问题，推动该领域的发展。

JMedBench is a Japanese biomedical large language model (LLM) evaluation benchmark developed by the University of Tokyo and the National Institute of Informatics. This dataset includes 20 sub-datasets, covering five tasks: multiple-choice question answering, named entity recognition, machine translation, document classification and semantic textual similarity, with a total of 38,130 test samples. The dataset was constructed by collecting existing manually curated Japanese biomedical datasets and translating high-quality English datasets into Japanese to expand its scale and diversity. JMedBench aims to address the need for evaluating and comparing large language models in the Japanese biomedical field, and promote the advancement of this research domain.

提供机构：

东京大学国立情报学研究所

创建时间：

2024-09-20

搜集汇总

数据集介绍

构建方式

JMedBench的构建主要包括数据集的收集和评估协议的设计。首先，考虑到现有日本生物医学数据集的规模较小，研究团队通过将高质量的英文生物医学数据集翻译成日文来增强基准的鲁棒性。翻译过程使用了OpenAI的ChatGPT和GPT-4模型，以确保翻译质量。此外，为了支持少样本评估，训练和验证集也被翻译。数据集的选择涵盖了五个广泛用于评估LLM的任务，包括多选题问答（MCQA）、命名实体识别（NER）、机器翻译（MT）、文档分类（DC）和语义文本相似度（STS）。

使用方法

JMedBench的使用方法包括对日本生物医学大型语言模型（LLM）的评估和比较。研究者可以使用该基准来测试和改进他们的模型，通过在五个不同任务上的表现来评估模型的性能。评估过程中，建议使用多种提示模板进行多次运行，以获得稳健的结果。此外，JMedBench的数据集和评估工具是公开的，便于未来研究的开展和比较。

背景与挑战

背景概述

近年来，日本大型语言模型（LLMs）的发展主要集中在通用领域，而在日本生物医学LLMs方面的进展相对较少。一个主要障碍是缺乏一个全面、大规模的基准用于比较。此外，评估日本生物医学LLMs的资源不足。为了推动这一领域的发展，我们提出了一种新的基准，包括四个类别中的八个LLMs和五个任务中的20个日本生物医学数据集。实验结果表明，对日语有更好理解和更丰富生物医学知识的LLMs在日本生物医学任务中表现更好。此外，我们还提供了一些见解，以进一步促进该领域的发展。我们的评估工具和数据集已公开，以方便未来的研究。

当前挑战

构建JMedBench数据集面临的主要挑战包括：1) 缺乏适用于日本生物医学LLMs的全面基准，导致模型比较和评估困难；2) 现有日本生物医学数据集的规模较小，难以进行稳健的评估；3) 数据集的翻译过程中可能出现的不准确性，影响评估结果的可靠性。此外，如何在不损失其他能力的情况下安全地改进LLM，以及如何在多语言环境中保持模型的性能，也是未来研究中需要解决的重要问题。

常用场景

经典使用场景

JMedBench 数据集在评估日本生物医学大型语言模型（LLMs）方面具有经典应用场景。该数据集通过包含五个任务（多选题问答、命名实体识别、机器翻译、文档分类和语义文本相似性）和20个日本生物医学数据集，提供了一个全面的基准。实验结果表明，具有更好日语理解和丰富生物医学知识的LLMs在处理日本生物医学任务时表现更佳。此外，JMedBench还揭示了非专门设计用于日本生物医学领域的LLMs在某些任务中也能表现出色，这为未来模型优化提供了重要参考。

解决学术问题

JMedBench 数据集解决了日本生物医学领域缺乏全面、大规模基准的问题。通过提供多样化的任务和数据集，JMedBench 促进了日本生物医学LLMs的评估和比较，推动了该领域的发展。此外，该数据集还揭示了现有LLMs在某些日本生物医学任务中的改进空间，为学术研究提供了新的方向和挑战。JMedBench的公开可用性进一步促进了未来研究的便利性和公平性。

实际应用

JMedBench 数据集在实际应用中具有广泛潜力。例如，在医疗问答系统中，多选题问答任务可以帮助患者和医生快速获取准确信息；命名实体识别任务可以用于自动提取病历中的关键信息；机器翻译任务可以促进国际医疗合作和信息交流；文档分类任务可以帮助医疗机构高效管理大量医学文献；语义文本相似性任务可以用于医疗文本的自动摘要和信息检索。这些应用不仅提高了医疗服务的效率和质量，还推动了生物医学信息处理技术的发展。

数据集最近研究