MedOdyssey|医疗数据数据集|人工智能数据集
收藏MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens
简介
MedOdyssey是一个医疗长上下文基准,包含七个长度级别,从4K到200K tokens。MedOdyssey由两个主要部分组成:医疗上下文“大海捞针”任务和一系列特定于医疗应用的任务,总共包含10个数据集。
数据集统计
任务 | 注释 | 示例数量 | 平均长度 | MIC | NFI | CIR | 评估指标 |
---|---|---|---|---|---|---|---|
En.NIAH | 自动 & 人工 | 20×7×5 | 179.2k/32 | ✔ | ✔ | ✘ | 准确率 |
Zh.NIAH | 自动 & 人工 | 20×7×5 | 45.6k/10.2 | ✔ | ✔ | ✘ | 准确率 |
En.Counting | 自动 | 4×7 | 179.0k/13.6 | ✔ | ✘ | ✔ | 准确率 |
Zh.Counting | 自动 | 4×7 | 45.6k/12.3 | ✔ | ✘ | ✔ | 准确率 |
En.KG | 自动 & 人工 | 100 | 186.4k/68.8 | ✔ | ✘ | ✔ | 精确率, 召回率, F1 |
Zh.KG | 自动 & 人工 | 100 | 42.5k/2.0 | ✔ | ✘ | ✔ | 精确率, 召回率, F1 |
En.Term | 自动 | 100 | 183.1k/11.7 | ✔ | ✘ | ✘ | 准确率 |
Zh.Term | 自动 | 100 | 32.6k/7.0 | ✔ | ✘ | ✘ | 准确率 |
Zh.Case | 自动 & 人工 | 100 | 47.7k/1.3 | ✔ | ✘ | ✘ | 准确率 |
Zh.Table | 自动 & 人工 | 100 | 53.6k/1.4 | ✔ | ✘ | ✘ | 精确率, 召回率, F1 |
其中,“MIC”代表最大相同上下文,“NFI”代表新事实注入,“CIR”代表反直觉推理。
基准模型
我们研究了当前最先进的长上下文大型语言模型(LLMs),并在MedOdyssey中展示了两种基准LLMs的性能。对于闭源商业LLMs,我们通过调用官方API获取每个任务的响应。我们还部署了开源模型进行推理。我们选择的LLMs及其版本如下:
- GPT-4:2023年3月发布,由OpenAI开发的最先进的语言模型。它支持8,192个tokens的上下文窗口长度,2023年11月更新扩展到128k。(gpt-4-turbo-2024-04-09)
- GPT-4o:GPT-4的优化变体,2024年5月引入,具有128k上下文窗口,知识截止日期为2023年10月。(gpt-4o-2024-05-13)
- Claude 3:2024年3月由Anthropic推出,包括三个按能力递增顺序排列的模型:Haiku、Sonnet和Opus,允许用户选择。这三个模型在发布时提供200k上下文窗口。(claude-3-haiku-20240307和claude-3-sonnet-20240229)
- Moonshot-v1:2023年由Moonshot AI发布,强调可扩展性,支持128k tokens的上下文窗口,用于生成非常长的文本。(moonshot-v1-128k)
- ChatGLM3-6b-128k:2024年由ZHIPU·AI开发,基于ChatGLM3-6B构建,更好地处理长达128K tokens的长上下文。
- InternLM2:2024年由上海AI Lab引入的开源LLM,包括7b和20b大小。它在预训练和微调阶段从4k tokens发展到32k tokens,并正式支持200k推理技术。
- Yi-6b-200k:Yi系列模型是01.AI从头开始训练的新一代开源大型语言模型,6B版本于2023年11月向公众开放,支持200k上下文窗口长度。
- Yarn-Mistral-7b-128k:由NousResearch开发并于2023年11月发布。它基于Mistral-7B-v0.1进一步在长上下文数据上预训练1500步,使用YaRN扩展方法,支持128k token上下文窗口。

- 1MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens华东理工大学信息科学与工程学院,上海,中国 · 2024年
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录