JMedBench

Hugging Face2024-08-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Coldog2333/JMedBench

下载链接

链接失效反馈

官方服务：

资源简介：

JMedBench是一个用于评估日本生物医学大型语言模型（LLM）的基准数据集集合。该集合包含15个数据集，分为5个任务：多选题问答（MCQA）、机器翻译（MT）、命名实体识别（NER）、自然语言推理（NLI）和语义文本相似度（STS）。每个数据集都有特定的配置和用于训练、测试和验证的数据文件。这些数据集来自不同的存储库和论文，许可证范围从MIT到CC-BY-NC-SA-4.0。

创建时间：

2024-08-17

原始信息汇总

JMedBench 数据集概述

JMedBench 是一个用于评估日本生物医学大型语言模型（LLMs）的基准数据集集合。该集合包含 15 个数据集，涵盖 5 种任务类型。

数据集配置

MCQA（多选题回答）

medmcqa_jp
- 训练集：medmcqa_jp/train.jsonl
- 测试集：medmcqa_jp/test.jsonl
usmleqa_jp
- 训练集：usmleqa_jp/train.jsonl
- 测试集：usmleqa_jp/test.jsonl
medqa_jp
- 训练集：medqa_jp/train.jsonl
- 测试集：medqa_jp/test.jsonl
mmlu_medical_jp
- 训练集：mmlu_medical_jp/train.jsonl
- 测试集：mmlu_medical_jp/test.jsonl
jmmlu_medical
- 训练集：mmlu_medical_jp/train.jsonl
- 测试集：jmmlu_medical/test.jsonl
igakuqa
- 训练集：medqa_jp/train.jsonl
- 测试集：igakuqa/test.jsonl
pubmedqa_jp
- 测试集：pubmedqa_jp/test.jsonl

MT（机器翻译）

ejmmt
- 测试集：ejmmt/test.jsonl

NER（命名实体识别）

mrner_medicine
- 训练集：mrner_medicine/train.jsonl
- 测试集：mrner_medicine/test.jsonl
mrner_disease
- 训练集：mrner_medicine/train.jsonl
- 测试集：mrner_disease/test.jsonl
nrner
- 训练集：mrner_medicine/train.jsonl
- 测试集：nrner/test.jsonl

NLI（自然语言推理）

mediqa_rqe
- 训练集：mediqa_rqe/train.jsonl
- 测试集：mediqa_rqe/test.jsonl
- 验证集：mediqa_rqe/validation.jsonl
healthver
- 训练集：healthver/train.jsonl
- 测试集：healthver/test.jsonl
- 验证集：healthver/validation.jsonl
pubhealth
- 训练集：pubhealth/train.jsonl
- 测试集：pubhealth/test.jsonl
- 验证集：pubhealth/validation.jsonl

DC（文档分类）

crade
- 测试集：crade/test.jsonl
rrtnm
- 测试集：rrtnm/test.jsonl
smdis
- 测试集：smdis/test.jsonl

STS（句子相似度）

jcsts
- 测试集：jcsts/test.jsonl

任务类别

文本分类
问答
翻译
句子相似度

语言

英语
日语

数据集详情

任务	数据集	许可证	来源
MCQA	medmcqa_jp	MIT	MedMCQA
	usmleqa_jp	MIT	MedQA
	medqa_jp	MIT	MedQA
	mmlu_medical_jp	MIT	MMLU
	jmmlu_medical	CC-BY-SA-4.0	JMMLU
	igakuqa	-	paper
	pubmedqa_jp	MIT	PubMedQA
MT	ejmmt	CC-BY-4.0	paper
NER	mrner_medicine	CC-BY-4.0	JMED-LLM
	mrner_disease	CC-BY-4.0	JMED-LLM
	nrner	CC-BY-NC-SA-4.0	JMED-LLM
DC	crade	CC-BY-4.0	JMED-LLM
	rrtnm	CC-BY-4.0	JMED-LLM
	smdis	CC-BY-4.0	JMED-LLM
STS	jcsts	CC-BY-NC-SA-4.0	paper

搜集汇总

数据集介绍

构建方式

JMedBench数据集的构建基于多个现有的医学问答和自然语言处理数据集，通过翻译和适配的方式将其转化为适用于日语环境的数据集。具体而言，数据集涵盖了从MedMCQA、MedQA、MMLU等英文数据集的翻译版本，并结合了部分日语原生数据集如JMMLU和PubMedQA的日语版本。数据集的构建过程中，使用了OpenAI的GPT-4-0613模型进行翻译，以确保语言转换的准确性。此外，部分数据集如NER任务的数据集，还通过手动生成少量样本以支持少样本学习任务。

特点

JMedBench数据集的特点在于其广泛的覆盖范围和多样化的任务类型。该数据集包含20个子数据集，涵盖了多项任务，包括多项选择题（MCQA）、机器翻译（MT）、命名实体识别（NER）、文本分类（DC）以及句子相似度（STS）等。每个子数据集均经过精心设计，以适应日语医学领域的特定需求。数据集的规模适中，介于10K到100K之间，适合用于训练和评估日语生物医学领域的大型语言模型。此外，数据集的多任务特性使其能够全面评估模型在不同医学任务中的表现。

使用方法

JMedBench数据集的使用方法较为灵活，用户可以根据具体任务需求选择相应的子数据集进行模型训练和评估。数据集以JSONL格式提供，便于加载和处理。用户可以通过Hugging Face平台直接访问数据集，并结合提供的评估框架med-eval进行模型性能的自动化评估。对于翻译任务，用户可以选择英日或日英翻译数据集进行训练；对于NER任务，用户可以使用手动生成的少样本数据集进行模型微调。此外，数据集的每个子数据集均附有详细的元数据信息，包括数据来源和许可协议，方便用户在使用时进行合规性检查。

背景与挑战

背景概述

JMedBench是由日本东京大学Aizawa实验室的Junfeng Jiang和Jiahao Huang等人于2024年推出的一个专注于日本生物医学领域的大型语言模型（LLMs）评估基准。该数据集涵盖了20个子数据集，涉及文本分类、问答、翻译、句子相似性等多个任务，旨在为日本生物医学领域的自然语言处理研究提供全面的评估工具。JMedBench的创建基于多个已有的英文数据集，并通过GPT-4等先进技术进行翻译和适配，以支持日语环境下的模型评估。该数据集的推出为日本生物医学领域的LLMs研究提供了重要的基准，推动了该领域的技术进步和应用落地。

当前挑战

JMedBench在构建和应用过程中面临多重挑战。首先，数据集的核心任务涉及复杂的生物医学知识，要求模型具备高度的专业性和准确性，这对模型的训练和评估提出了极高的要求。其次，由于部分数据集是从英文翻译而来，尽管使用了GPT-4等先进技术进行翻译，但仍可能存在翻译错误或不准确的情况，这会影响模型的评估结果。此外，生物医学领域的术语和表达具有高度的专业性和多样性，如何确保数据集的覆盖范围和标注质量也是一个重要的挑战。最后，数据集的多样性和规模要求评估框架具备高效的计算能力和灵活的扩展性，这对技术实现提出了更高的要求。

常用场景

经典使用场景

JMedBench数据集在生物医学领域的大型语言模型（LLMs）评估中具有重要应用。该数据集涵盖了多种任务，包括文本分类、问答、翻译和句子相似性等，特别适用于评估模型在日语生物医学文本上的表现。通过提供丰富的多任务数据集，JMedBench为研究人员提供了一个全面的基准，用于测试和优化模型在复杂医学语境下的理解和生成能力。

解决学术问题

JMedBench数据集解决了生物医学领域中的多个关键学术问题，尤其是在日语语境下的模型评估。通过提供翻译自英文的医学问答数据集，该数据集填补了日语生物医学文本评估的空白。此外，数据集中的多任务设计使得研究人员能够全面评估模型在不同任务上的表现，从而推动生物医学自然语言处理技术的发展。

衍生相关工作

JMedBench数据集衍生了许多相关的研究工作，特别是在生物医学自然语言处理领域。基于该数据集，研究人员开发了多种先进的模型和算法，用于提升模型在日语医学文本上的表现。此外，该数据集还促进了跨语言医学文本处理的研究，推动了多语言生物医学信息处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集