MedOdyssey|医疗数据数据集|人工智能数据集
收藏MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens
简介
MedOdyssey是一个医疗长上下文基准,包含七个长度级别,从4K到200K tokens。MedOdyssey由两个主要部分组成:医疗上下文“大海捞针”任务和一系列特定于医疗应用的任务,总共包含10个数据集。
数据集统计
任务 | 注释 | 示例数量 | 平均长度 | MIC | NFI | CIR | 评估指标 |
---|---|---|---|---|---|---|---|
En.NIAH | 自动 & 人工 | 20×7×5 | 179.2k/32 | ✔ | ✔ | ✘ | 准确率 |
Zh.NIAH | 自动 & 人工 | 20×7×5 | 45.6k/10.2 | ✔ | ✔ | ✘ | 准确率 |
En.Counting | 自动 | 4×7 | 179.0k/13.6 | ✔ | ✘ | ✔ | 准确率 |
Zh.Counting | 自动 | 4×7 | 45.6k/12.3 | ✔ | ✘ | ✔ | 准确率 |
En.KG | 自动 & 人工 | 100 | 186.4k/68.8 | ✔ | ✘ | ✔ | 精确率, 召回率, F1 |
Zh.KG | 自动 & 人工 | 100 | 42.5k/2.0 | ✔ | ✘ | ✔ | 精确率, 召回率, F1 |
En.Term | 自动 | 100 | 183.1k/11.7 | ✔ | ✘ | ✘ | 准确率 |
Zh.Term | 自动 | 100 | 32.6k/7.0 | ✔ | ✘ | ✘ | 准确率 |
Zh.Case | 自动 & 人工 | 100 | 47.7k/1.3 | ✔ | ✘ | ✘ | 准确率 |
Zh.Table | 自动 & 人工 | 100 | 53.6k/1.4 | ✔ | ✘ | ✘ | 精确率, 召回率, F1 |
其中,“MIC”代表最大相同上下文,“NFI”代表新事实注入,“CIR”代表反直觉推理。
基准模型
我们研究了当前最先进的长上下文大型语言模型(LLMs),并在MedOdyssey中展示了两种基准LLMs的性能。对于闭源商业LLMs,我们通过调用官方API获取每个任务的响应。我们还部署了开源模型进行推理。我们选择的LLMs及其版本如下:
- GPT-4:2023年3月发布,由OpenAI开发的最先进的语言模型。它支持8,192个tokens的上下文窗口长度,2023年11月更新扩展到128k。(gpt-4-turbo-2024-04-09)
- GPT-4o:GPT-4的优化变体,2024年5月引入,具有128k上下文窗口,知识截止日期为2023年10月。(gpt-4o-2024-05-13)
- Claude 3:2024年3月由Anthropic推出,包括三个按能力递增顺序排列的模型:Haiku、Sonnet和Opus,允许用户选择。这三个模型在发布时提供200k上下文窗口。(claude-3-haiku-20240307和claude-3-sonnet-20240229)
- Moonshot-v1:2023年由Moonshot AI发布,强调可扩展性,支持128k tokens的上下文窗口,用于生成非常长的文本。(moonshot-v1-128k)
- ChatGLM3-6b-128k:2024年由ZHIPU·AI开发,基于ChatGLM3-6B构建,更好地处理长达128K tokens的长上下文。
- InternLM2:2024年由上海AI Lab引入的开源LLM,包括7b和20b大小。它在预训练和微调阶段从4k tokens发展到32k tokens,并正式支持200k推理技术。
- Yi-6b-200k:Yi系列模型是01.AI从头开始训练的新一代开源大型语言模型,6B版本于2023年11月向公众开放,支持200k上下文窗口长度。
- Yarn-Mistral-7b-128k:由NousResearch开发并于2023年11月发布。它基于Mistral-7B-v0.1进一步在长上下文数据上预训练1500步,使用YaRN扩展方法,支持128k token上下文窗口。

- 1MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens华东理工大学信息科学与工程学院,上海,中国 · 2024年
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Wafer Defect
该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录