five

MedOdyssey

收藏
arXiv2024-06-21 更新2024-06-25 收录
下载链接:
https://github.com/JOHNNY-fans/MedOdyssey
下载链接
链接失效反馈
官方服务:
资源简介:
MedOdyssey是由华东理工大学和上海人工智能实验室联合创建的医疗领域长上下文评估基准,包含10个复杂数据集,涉及医疗专业语料库,如医疗书籍、指南、病例和知识图谱等。数据集通过收集开放源和版权自由的医疗数据构建,旨在评估大型语言模型在处理长上下文时的性能,特别是在医疗领域的应用,如电子健康记录分析和生物医学术语标准化。

MedOdyssey is a long-context evaluation benchmark in the medical domain, jointly developed by East China University of Science and Technology and Shanghai AI Laboratory. It comprises 10 complex datasets covering medical professional corpora, including medical books, guidelines, clinical cases, knowledge graphs and other related resources. The benchmark is constructed by collecting open-source and copyright-free medical data, aiming to evaluate the performance of large language models (LLMs) when handling long contexts, especially their applications in the medical field such as electronic health record analysis and biomedical term standardization.
提供机构:
华东理工大学信息科学与工程学院,上海,中国
创建时间:
2024-06-21
原始信息汇总

MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens

简介

MedOdyssey是一个医疗长上下文基准,包含七个长度级别,从4K到200K tokens。MedOdyssey由两个主要部分组成:医疗上下文“大海捞针”任务和一系列特定于医疗应用的任务,总共包含10个数据集。

数据集统计

任务 注释 示例数量 平均长度 MIC NFI CIR 评估指标
En.NIAH 自动 & 人工 20×7×5 179.2k/32 准确率
Zh.NIAH 自动 & 人工 20×7×5 45.6k/10.2 准确率
En.Counting 自动 4×7 179.0k/13.6 准确率
Zh.Counting 自动 4×7 45.6k/12.3 准确率
En.KG 自动 & 人工 100 186.4k/68.8 精确率, 召回率, F1
Zh.KG 自动 & 人工 100 42.5k/2.0 精确率, 召回率, F1
En.Term 自动 100 183.1k/11.7 准确率
Zh.Term 自动 100 32.6k/7.0 准确率
Zh.Case 自动 & 人工 100 47.7k/1.3 准确率
Zh.Table 自动 & 人工 100 53.6k/1.4 精确率, 召回率, F1

其中,“MIC”代表最大相同上下文,“NFI”代表新事实注入,“CIR”代表反直觉推理

基准模型

我们研究了当前最先进的长上下文大型语言模型(LLMs),并在MedOdyssey中展示了两种基准LLMs的性能。对于闭源商业LLMs,我们通过调用官方API获取每个任务的响应。我们还部署了开源模型进行推理。我们选择的LLMs及其版本如下:

  • GPT-4:2023年3月发布,由OpenAI开发的最先进的语言模型。它支持8,192个tokens的上下文窗口长度,2023年11月更新扩展到128k。(gpt-4-turbo-2024-04-09)
  • GPT-4o:GPT-4的优化变体,2024年5月引入,具有128k上下文窗口,知识截止日期为2023年10月。(gpt-4o-2024-05-13)
  • Claude 3:2024年3月由Anthropic推出,包括三个按能力递增顺序排列的模型:Haiku、Sonnet和Opus,允许用户选择。这三个模型在发布时提供200k上下文窗口。(claude-3-haiku-20240307和claude-3-sonnet-20240229)
  • Moonshot-v1:2023年由Moonshot AI发布,强调可扩展性,支持128k tokens的上下文窗口,用于生成非常长的文本。(moonshot-v1-128k)
  • ChatGLM3-6b-128k:2024年由ZHIPU·AI开发,基于ChatGLM3-6B构建,更好地处理长达128K tokens的长上下文。
  • InternLM2:2024年由上海AI Lab引入的开源LLM,包括7b和20b大小。它在预训练和微调阶段从4k tokens发展到32k tokens,并正式支持200k推理技术。
  • Yi-6b-200k:Yi系列模型是01.AI从头开始训练的新一代开源大型语言模型,6B版本于2023年11月向公众开放,支持200k上下文窗口长度。
  • Yarn-Mistral-7b-128k:由NousResearch开发并于2023年11月发布。它基于Mistral-7B-v0.1进一步在长上下文数据上预训练1500步,使用YaRN扩展方法,支持128k token上下文窗口。
搜集汇总
数据集介绍
main_image_url
构建方式
MedOdyssey数据集的构建基于七个不同长度的文本级别,从4K到200K tokens,涵盖了医疗领域的长文本评估需求。该数据集由两个主要部分组成:医疗上下文中的‘大海捞针’任务和一系列医疗相关的任务,共计10个数据集。构建过程中,采用了自动化和人工协作的方式,确保数据集的公平性和专业性,同时通过引入‘最大相同上下文’原则,确保不同模型在评估时面对尽可能相同的上下文,以提高评估的公平性。
特点
MedOdyssey数据集的显著特点在于其针对医疗领域长文本处理的独特设计。数据集包含了医疗上下文中的‘大海捞针’任务,通过插入无关知识片段并要求模型识别,测试模型的长文本处理能力。此外,数据集还包括一系列医疗相关的任务,如医学术语标准化、知识图谱问答等,这些任务不仅要求模型具备长文本处理能力,还需具备专业的医疗知识。
使用方法
MedOdyssey数据集适用于评估和提升大型语言模型在医疗领域长文本处理的能力。使用该数据集时,研究者可以通过对比不同模型在各个任务上的表现,分析模型在长文本处理和专业医疗知识应用上的优劣。此外,数据集的构建原则和方法也可为其他领域的长文本评估提供参考,推动长文本处理技术的发展。
背景与挑战
背景概述
MedOdyssey数据集由华东理工大学信息科学与工程学院、上海人工智能实验室智能医疗团队以及上海交通大学电子信息与电气工程学院的研究人员共同创建,旨在评估大型语言模型(LLMs)在医疗领域长上下文环境中的表现。该数据集于2024年提出,是首个针对医疗领域长上下文能力的基准测试,涵盖了从4K到200K标记的七个长度级别。MedOdyssey的核心研究问题是如何在医疗专业知识的背景下,评估和提升LLMs处理长文本的能力,这对于医疗领域的任务如生物医学术语标准化和电子健康记录分析至关重要。该数据集的提出填补了医疗领域长上下文评估的空白,为相关领域的研究提供了新的工具和方法。
当前挑战
MedOdyssey数据集面临的挑战主要包括两个方面:一是解决医疗领域长上下文处理的独特问题,如反直觉推理和未知事实注入,以防止知识泄露和数据污染;二是构建过程中遇到的实际困难,如数据收集的版权和隐私保护问题。此外,确保不同LLMs在评估中观察到尽可能相同的上下文,以提高公平性,也是一个重要的挑战。这些挑战不仅影响了数据集的构建质量,也对其在实际应用中的有效性提出了考验。
常用场景
经典使用场景
MedOdyssey数据集在医学领域中被广泛用于评估大型语言模型(LLMs)在长上下文环境下的表现。其经典使用场景包括医学文本中的‘大海捞针’任务,即在长篇医学文本中识别特定信息片段,以及一系列医学相关的任务,如医学术语标准化、知识图谱问答和电子健康记录分析。这些任务旨在测试LLMs在处理复杂医学文本时的准确性和效率。
衍生相关工作
MedOdyssey数据集的发布催生了一系列相关的经典工作,包括对不同LLMs在医学长上下文任务中的性能比较研究,以及针对医学文本特点的模型优化方法。例如,一些研究通过引入新的位置编码技术和高效的Transformer架构,扩展了LLMs的上下文窗口,使其能够更好地处理长篇医学文本。此外,还有研究探讨了如何通过数据增强和知识注入等方法,提高模型在医学领域的推理和理解能力。
数据集最近研究
最新研究方向
在医疗领域,长上下文处理能力对于大型语言模型(LLMs)的应用至关重要。MedOdyssey数据集的最新研究方向聚焦于评估LLMs在处理长达200K标记的医疗文本时的表现。该研究不仅涵盖了医疗领域的长上下文评估,还引入了‘最大相同上下文’原则,以确保不同模型在评估中面对相同的上下文,从而提升评估的公平性。此外,研究还通过‘新颖事实注入’和‘反直觉推理’等方法,有效防止了模型在训练数据中已见过的问题,进一步提升了评估的可靠性和挑战性。这些研究成果为医疗领域的LLMs应用提供了重要的基准和方向,揭示了当前模型在处理复杂医疗文本时的局限性,并为未来的改进提供了明确的路径。
相关研究论文
  • 1
    MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens华东理工大学信息科学与工程学院,上海,中国 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作