MedOdyssey|医疗数据数据集|人工智能数据集

arXiv2024-06-21 更新2024-06-25 收录

医疗数据

人工智能

下载链接：

https://github.com/JOHNNY-fans/MedOdyssey

下载链接

链接失效反馈

资源简介：

MedOdyssey是由华东理工大学和上海人工智能实验室联合创建的医疗领域长上下文评估基准，包含10个复杂数据集，涉及医疗专业语料库，如医疗书籍、指南、病例和知识图谱等。数据集通过收集开放源和版权自由的医疗数据构建，旨在评估大型语言模型在处理长上下文时的性能，特别是在医疗领域的应用，如电子健康记录分析和生物医学术语标准化。

提供机构：

华东理工大学信息科学与工程学院，上海，中国

创建时间：

2024-06-21

原始信息汇总

MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens

简介

MedOdyssey是一个医疗长上下文基准，包含七个长度级别，从4K到200K tokens。MedOdyssey由两个主要部分组成：医疗上下文“大海捞针”任务和一系列特定于医疗应用的任务，总共包含10个数据集。

数据集统计

任务	注释	示例数量	平均长度	MIC	NFI	CIR	评估指标
En.NIAH	自动 & 人工	20×7×5	179.2k/32	✔	✔	✘	准确率
Zh.NIAH	自动 & 人工	20×7×5	45.6k/10.2	✔	✔	✘	准确率
En.Counting	自动	4×7	179.0k/13.6	✔	✘	✔	准确率
Zh.Counting	自动	4×7	45.6k/12.3	✔	✘	✔	准确率
En.KG	自动 & 人工	100	186.4k/68.8	✔	✘	✔	精确率, 召回率, F1
Zh.KG	自动 & 人工	100	42.5k/2.0	✔	✘	✔	精确率, 召回率, F1
En.Term	自动	100	183.1k/11.7	✔	✘	✘	准确率
Zh.Term	自动	100	32.6k/7.0	✔	✘	✘	准确率
Zh.Case	自动 & 人工	100	47.7k/1.3	✔	✘	✘	准确率
Zh.Table	自动 & 人工	100	53.6k/1.4	✔	✘	✘	精确率, 召回率, F1

其中，“MIC”代表最大相同上下文，“NFI”代表新事实注入，“CIR”代表反直觉推理。

基准模型

我们研究了当前最先进的长上下文大型语言模型（LLMs），并在MedOdyssey中展示了两种基准LLMs的性能。对于闭源商业LLMs，我们通过调用官方API获取每个任务的响应。我们还部署了开源模型进行推理。我们选择的LLMs及其版本如下：

GPT-4：2023年3月发布，由OpenAI开发的最先进的语言模型。它支持8,192个tokens的上下文窗口长度，2023年11月更新扩展到128k。（gpt-4-turbo-2024-04-09）
GPT-4o：GPT-4的优化变体，2024年5月引入，具有128k上下文窗口，知识截止日期为2023年10月。（gpt-4o-2024-05-13）
Claude 3：2024年3月由Anthropic推出，包括三个按能力递增顺序排列的模型：Haiku、Sonnet和Opus，允许用户选择。这三个模型在发布时提供200k上下文窗口。（claude-3-haiku-20240307和claude-3-sonnet-20240229）
Moonshot-v1：2023年由Moonshot AI发布，强调可扩展性，支持128k tokens的上下文窗口，用于生成非常长的文本。（moonshot-v1-128k）
ChatGLM3-6b-128k：2024年由ZHIPU·AI开发，基于ChatGLM3-6B构建，更好地处理长达128K tokens的长上下文。
InternLM2：2024年由上海AI Lab引入的开源LLM，包括7b和20b大小。它在预训练和微调阶段从4k tokens发展到32k tokens，并正式支持200k推理技术。
Yi-6b-200k：Yi系列模型是01.AI从头开始训练的新一代开源大型语言模型，6B版本于2023年11月向公众开放，支持200k上下文窗口长度。
Yarn-Mistral-7b-128k：由NousResearch开发并于2023年11月发布。它基于Mistral-7B-v0.1进一步在长上下文数据上预训练1500步，使用YaRN扩展方法，支持128k token上下文窗口。

AI搜集汇总

数据集介绍

构建方式

MedOdyssey数据集的构建基于七个不同长度的文本级别，从4K到200K tokens，涵盖了医疗领域的长文本评估需求。该数据集由两个主要部分组成：医疗上下文中的‘大海捞针’任务和一系列医疗相关的任务，共计10个数据集。构建过程中，采用了自动化和人工协作的方式，确保数据集的公平性和专业性，同时通过引入‘最大相同上下文’原则，确保不同模型在评估时面对尽可能相同的上下文，以提高评估的公平性。

特点

MedOdyssey数据集的显著特点在于其针对医疗领域长文本处理的独特设计。数据集包含了医疗上下文中的‘大海捞针’任务，通过插入无关知识片段并要求模型识别，测试模型的长文本处理能力。此外，数据集还包括一系列医疗相关的任务，如医学术语标准化、知识图谱问答等，这些任务不仅要求模型具备长文本处理能力，还需具备专业的医疗知识。

使用方法

MedOdyssey数据集适用于评估和提升大型语言模型在医疗领域长文本处理的能力。使用该数据集时，研究者可以通过对比不同模型在各个任务上的表现，分析模型在长文本处理和专业医疗知识应用上的优劣。此外，数据集的构建原则和方法也可为其他领域的长文本评估提供参考，推动长文本处理技术的发展。

背景与挑战

背景概述

MedOdyssey数据集由华东理工大学信息科学与工程学院、上海人工智能实验室智能医疗团队以及上海交通大学电子信息与电气工程学院的研究人员共同创建，旨在评估大型语言模型（LLMs）在医疗领域长上下文环境中的表现。该数据集于2024年提出，是首个针对医疗领域长上下文能力的基准测试，涵盖了从4K到200K标记的七个长度级别。MedOdyssey的核心研究问题是如何在医疗专业知识的背景下，评估和提升LLMs处理长文本的能力，这对于医疗领域的任务如生物医学术语标准化和电子健康记录分析至关重要。该数据集的提出填补了医疗领域长上下文评估的空白，为相关领域的研究提供了新的工具和方法。

当前挑战

MedOdyssey数据集面临的挑战主要包括两个方面：一是解决医疗领域长上下文处理的独特问题，如反直觉推理和未知事实注入，以防止知识泄露和数据污染；二是构建过程中遇到的实际困难，如数据收集的版权和隐私保护问题。此外，确保不同LLMs在评估中观察到尽可能相同的上下文，以提高公平性，也是一个重要的挑战。这些挑战不仅影响了数据集的构建质量，也对其在实际应用中的有效性提出了考验。

常用场景

经典使用场景

MedOdyssey数据集在医学领域中被广泛用于评估大型语言模型（LLMs）在长上下文环境下的表现。其经典使用场景包括医学文本中的‘大海捞针’任务，即在长篇医学文本中识别特定信息片段，以及一系列医学相关的任务，如医学术语标准化、知识图谱问答和电子健康记录分析。这些任务旨在测试LLMs在处理复杂医学文本时的准确性和效率。

衍生相关工作

MedOdyssey数据集的发布催生了一系列相关的经典工作，包括对不同LLMs在医学长上下文任务中的性能比较研究，以及针对医学文本特点的模型优化方法。例如，一些研究通过引入新的位置编码技术和高效的Transformer架构，扩展了LLMs的上下文窗口，使其能够更好地处理长篇医学文本。此外，还有研究探讨了如何通过数据增强和知识注入等方法，提高模型在医学领域的推理和理解能力。

数据集最近研究

相关研究论文

1
MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens华东理工大学信息科学与工程学院，上海，中国 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录