MedOdyssey

Name: MedOdyssey
Creator: 华东理工大学信息科学与工程学院，上海，中国
Published: 2024-06-21 17:46:57
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://github.com/JOHNNY-fans/MedOdyssey

下载链接

链接失效反馈

官方服务：

资源简介：

MedOdyssey是由华东理工大学和上海人工智能实验室联合创建的医疗领域长上下文评估基准，包含10个复杂数据集，涉及医疗专业语料库，如医疗书籍、指南、病例和知识图谱等。数据集通过收集开放源和版权自由的医疗数据构建，旨在评估大型语言模型在处理长上下文时的性能，特别是在医疗领域的应用，如电子健康记录分析和生物医学术语标准化。

MedOdyssey is a long-context evaluation benchmark in the medical domain, jointly developed by East China University of Science and Technology and Shanghai AI Laboratory. It comprises 10 complex datasets covering medical professional corpora, including medical books, guidelines, clinical cases, knowledge graphs and other related resources. The benchmark is constructed by collecting open-source and copyright-free medical data, aiming to evaluate the performance of large language models (LLMs) when handling long contexts, especially their applications in the medical field such as electronic health record analysis and biomedical term standardization.

提供机构：

华东理工大学信息科学与工程学院，上海，中国

创建时间：

2024-06-21

原始信息汇总

MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens

简介

MedOdyssey是一个医疗长上下文基准，包含七个长度级别，从4K到200K tokens。MedOdyssey由两个主要部分组成：医疗上下文“大海捞针”任务和一系列特定于医疗应用的任务，总共包含10个数据集。

数据集统计

任务	注释	示例数量	平均长度	MIC	NFI	CIR	评估指标
En.NIAH	自动 & 人工	20×7×5	179.2k/32	✔	✔	✘	准确率
Zh.NIAH	自动 & 人工	20×7×5	45.6k/10.2	✔	✔	✘	准确率
En.Counting	自动	4×7	179.0k/13.6	✔	✘	✔	准确率
Zh.Counting	自动	4×7	45.6k/12.3	✔	✘	✔	准确率
En.KG	自动 & 人工	100	186.4k/68.8	✔	✘	✔	精确率, 召回率, F1
Zh.KG	自动 & 人工	100	42.5k/2.0	✔	✘	✔	精确率, 召回率, F1
En.Term	自动	100	183.1k/11.7	✔	✘	✘	准确率
Zh.Term	自动	100	32.6k/7.0	✔	✘	✘	准确率
Zh.Case	自动 & 人工	100	47.7k/1.3	✔	✘	✘	准确率
Zh.Table	自动 & 人工	100	53.6k/1.4	✔	✘	✘	精确率, 召回率, F1

其中，“MIC”代表最大相同上下文，“NFI”代表新事实注入，“CIR”代表反直觉推理。

基准模型

我们研究了当前最先进的长上下文大型语言模型（LLMs），并在MedOdyssey中展示了两种基准LLMs的性能。对于闭源商业LLMs，我们通过调用官方API获取每个任务的响应。我们还部署了开源模型进行推理。我们选择的LLMs及其版本如下：

GPT-4：2023年3月发布，由OpenAI开发的最先进的语言模型。它支持8,192个tokens的上下文窗口长度，2023年11月更新扩展到128k。（gpt-4-turbo-2024-04-09）
GPT-4o：GPT-4的优化变体，2024年5月引入，具有128k上下文窗口，知识截止日期为2023年10月。（gpt-4o-2024-05-13）
Claude 3：2024年3月由Anthropic推出，包括三个按能力递增顺序排列的模型：Haiku、Sonnet和Opus，允许用户选择。这三个模型在发布时提供200k上下文窗口。（claude-3-haiku-20240307和claude-3-sonnet-20240229）
Moonshot-v1：2023年由Moonshot AI发布，强调可扩展性，支持128k tokens的上下文窗口，用于生成非常长的文本。（moonshot-v1-128k）
ChatGLM3-6b-128k：2024年由ZHIPU·AI开发，基于ChatGLM3-6B构建，更好地处理长达128K tokens的长上下文。
InternLM2：2024年由上海AI Lab引入的开源LLM，包括7b和20b大小。它在预训练和微调阶段从4k tokens发展到32k tokens，并正式支持200k推理技术。
Yi-6b-200k：Yi系列模型是01.AI从头开始训练的新一代开源大型语言模型，6B版本于2023年11月向公众开放，支持200k上下文窗口长度。
Yarn-Mistral-7b-128k：由NousResearch开发并于2023年11月发布。它基于Mistral-7B-v0.1进一步在长上下文数据上预训练1500步，使用YaRN扩展方法，支持128k token上下文窗口。

搜集汇总

数据集介绍

构建方式

MedOdyssey数据集的构建基于七个不同长度的文本级别，从4K到200K tokens，涵盖了医疗领域的长文本评估需求。该数据集由两个主要部分组成：医疗上下文中的‘大海捞针’任务和一系列医疗相关的任务，共计10个数据集。构建过程中，采用了自动化和人工协作的方式，确保数据集的公平性和专业性，同时通过引入‘最大相同上下文’原则，确保不同模型在评估时面对尽可能相同的上下文，以提高评估的公平性。

特点

MedOdyssey数据集的显著特点在于其针对医疗领域长文本处理的独特设计。数据集包含了医疗上下文中的‘大海捞针’任务，通过插入无关知识片段并要求模型识别，测试模型的长文本处理能力。此外，数据集还包括一系列医疗相关的任务，如医学术语标准化、知识图谱问答等，这些任务不仅要求模型具备长文本处理能力，还需具备专业的医疗知识。

使用方法

MedOdyssey数据集适用于评估和提升大型语言模型在医疗领域长文本处理的能力。使用该数据集时，研究者可以通过对比不同模型在各个任务上的表现，分析模型在长文本处理和专业医疗知识应用上的优劣。此外，数据集的构建原则和方法也可为其他领域的长文本评估提供参考，推动长文本处理技术的发展。

背景与挑战

背景概述

MedOdyssey数据集由华东理工大学信息科学与工程学院、上海人工智能实验室智能医疗团队以及上海交通大学电子信息与电气工程学院的研究人员共同创建，旨在评估大型语言模型（LLMs）在医疗领域长上下文环境中的表现。该数据集于2024年提出，是首个针对医疗领域长上下文能力的基准测试，涵盖了从4K到200K标记的七个长度级别。MedOdyssey的核心研究问题是如何在医疗专业知识的背景下，评估和提升LLMs处理长文本的能力，这对于医疗领域的任务如生物医学术语标准化和电子健康记录分析至关重要。该数据集的提出填补了医疗领域长上下文评估的空白，为相关领域的研究提供了新的工具和方法。

当前挑战

MedOdyssey数据集面临的挑战主要包括两个方面：一是解决医疗领域长上下文处理的独特问题，如反直觉推理和未知事实注入，以防止知识泄露和数据污染；二是构建过程中遇到的实际困难，如数据收集的版权和隐私保护问题。此外，确保不同LLMs在评估中观察到尽可能相同的上下文，以提高公平性，也是一个重要的挑战。这些挑战不仅影响了数据集的构建质量，也对其在实际应用中的有效性提出了考验。

常用场景

经典使用场景

MedOdyssey数据集在医学领域中被广泛用于评估大型语言模型（LLMs）在长上下文环境下的表现。其经典使用场景包括医学文本中的‘大海捞针’任务，即在长篇医学文本中识别特定信息片段，以及一系列医学相关的任务，如医学术语标准化、知识图谱问答和电子健康记录分析。这些任务旨在测试LLMs在处理复杂医学文本时的准确性和效率。

衍生相关工作

MedOdyssey数据集的发布催生了一系列相关的经典工作，包括对不同LLMs在医学长上下文任务中的性能比较研究，以及针对医学文本特点的模型优化方法。例如，一些研究通过引入新的位置编码技术和高效的Transformer架构，扩展了LLMs的上下文窗口，使其能够更好地处理长篇医学文本。此外，还有研究探讨了如何通过数据增强和知识注入等方法，提高模型在医学领域的推理和理解能力。

数据集最近研究