test-medicina

Hugging Face2024-09-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/room-b007/test-medicina

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Test di Medicina'或'Medschool-Test'，旨在评估大型语言模型（LLMs）在意大利医学院入学考试中的广泛问题。它包含来自生物学、化学、物理、数学、世界知识等多个学科的多项选择题。每个问题附有五个选项，其中一个是正确答案。数据集目前仅提供意大利语版本，英语版本即将推出。它包含超过3K高质量问题，适合用于训练和评估LLMs。评估指标基于模型在多项选择格式中选择正确答案或在填空格式中生成正确答案的能力。数据集来源于意大利教育部、大学和研究部的官方网站（MIUR）。

创建时间：

2024-09-17

原始信息汇总

Medschool-Test, or "Test di Medicina"

概述

任务类别: 文本生成
语言: 意大利语
数据规模: 1K<n<10K
配置:
- 配置名称: italian
- 数据文件:
  - 分割: test
  - 路径: medical_school_questions.jsonl
标签:
- culture
- knowledge
- chemistry
- biology
- math
- reasoning
美观名称: Test di Medicina

数据集描述

目标: 评估大型语言模型（LLMs）在意大利医学院入学考试中的表现。
内容: 包含来自意大利医学院入学考试的多项选择题，涵盖生物学、化学、物理、数学、世界知识等多个学科。
示例: 每个问题包含五个选项，其中一个为正确答案。

特征

语言: 目前仅提供意大利语版本，英语版本即将推出。
主题: 问题涵盖生物学、化学、物理、数学、世界知识等多个学科。
格式:
- 多项选择: 每个问题有五个选项，其中一个为正确答案。
- 填空风格: 问题不提供选项，模型需生成正确答案。
规模: 包含超过3K高质量问题，适合评估LLMs。

评估

评估指标:
- 多项选择格式: 模型选择正确答案的能力。
- 填空风格格式: 模型生成正确答案的能力。
评分:
- 正确答案: 1.5分
- 错误答案: -0.4分
- 无答案: 0.0分
最终得分: 根据各学科的权重计算加权平均分。

数据

来源: 数据集来自意大利教育、大学和研究部（MIUR）的官方网站，包含过去医学院入学考试的问题。
组成: 包含超过3K个问题，涵盖生物学、化学、物理、数学、世界知识等多个学科。
格式: 数据以JSONL格式提供，每行代表一个问题。

示例

生物学: json { "id": 1691, "topic": "biologia", "text": "Come sono definite le cellule staminali che sono in grado di differenziarsi in tutti i tipi di cellule presenti nel corpo umano, ma non possono dare origine ad un organismo completo?", "answers": [ "Cellule Staminali Multipotenti", "Cellule Staminali Pluripotenti", "Cellule Staminali Totipotenti", "Cellule Staminali Unipotenti", "Cellule Staminali Oligopotenti" ], "label": 1 }
化学: json { "id": 19, "topic": "chimica", "text": "Rispetto alla classificazione che si trova nella tavola periodica il fluoro fa parte del: ", "answers": [ "gruppo dei gas nobili", "gruppo degli alogeni", "gruppo dei lantanidi", "secondo gruppo", "quarto periodo" ], "label": 1 }
数学与物理: json { "id": 1203, "topic": "fisica-matematica", "text": "Quali sono le coordinate del centro della circonferenza di equazione x^2 + y^2 + 2x – 6y + 5 = 0?", "answers": [ "(2 ; –6)", "(–2 ; 6)", "(1 ; 3)", "(–1 ; 3)", "(2 ; 3)" ], "label": 3 }
世界知识: json { "id": 11, "topic": "competenze-conoscenze", "text": "Quale dei seguenti è il primo romanzo di Italo Calvino, pubblicato nel 1947?", "answers": [ "Se una notte dinverno un viaggiatore", "Il barone rampante", "Palomar", "Le cosmicomiche", "Il sentiero dei nidi di ragno" ], "label": 4 }
逻辑与推理: json { "id": 2539, "topic": "logica", "text": "Tutti i pasticcieri praticano il kendo; Gianluca pratica il kendo. Quale delle seguenti affermazioni aggiuntive consentirebbe di dedurre con certezza che Gianluca è un pasticciere?", "answers": [ "Tra le persone che praticano kendo vi sono dei pasticcieri", "Alcune persone che praticano kendo si chiamano Gianluca", "Alcune persone che praticano kendo sono pasticcieri", "Non è certo che ogni persona che pratica kendo sia anche un pasticciere", "Ogni persona che pratica kendo è anche un pasticciere" ], "label": 4 }

许可证

许可证: Apache 2.0 License

搜集汇总

数据集介绍

构建方式

该数据集通过从意大利教育、大学和研究部（MIUR）官方网站收集历年医学入学考试的试题构建而成。数据采集过程使用了Python编写的脚本，结合`beautifulsoup4`库从网页中抓取试题，并将其整理为JSONL格式。每个问题包含唯一的ID、所属学科、问题文本、五个选项以及正确答案的索引。数据集涵盖了生物学、化学、物理、数学、世界知识及逻辑推理等多个学科，确保了内容的多样性和广泛性。

使用方法

该数据集主要用于评估大型语言模型（LLMs）在医学入学考试相关领域的表现。用户可以通过`lm-evaluation-harness`库对模型进行多选和填空形式的评估。评估脚本支持多种模型，并提供了详细的评分标准，用户可根据模型的输出计算加权平均分。数据集以JSONL格式提供，便于加载和处理。此外，用户还可以通过提供的Python脚本从MIUR网站抓取最新试题，扩展数据集内容。

背景与挑战

背景概述

Test di Medicina 数据集由意大利教育部、大学和研究部（MIUR）提供，旨在评估大型语言模型（LLMs）在意大利医学院入学考试中的表现。该数据集创建于2023年，涵盖了生物学、化学、物理、数学、世界知识等多个学科的多项选择题。数据集的核心研究问题在于如何通过多学科知识的综合评估，提升LLMs在复杂问题解决和推理能力上的表现。该数据集不仅为LLMs的评估提供了新的基准，还为医学教育领域的自动化和智能化发展提供了重要参考。

当前挑战

Test di Medicina 数据集面临的挑战主要体现在两个方面。首先，该数据集旨在解决LLMs在医学入学考试中的表现问题，但医学考试题目通常涉及复杂的跨学科知识和逻辑推理，这对模型的综合能力提出了极高的要求。其次，在数据集的构建过程中，研究人员需要从官方考试网站中提取并整理大量题目，确保数据的准确性和多样性，同时还需处理不同学科之间的权重分配问题，以保持评估的公平性和科学性。这些挑战使得数据集的构建和评估过程更加复杂，但也为LLMs的研究提供了新的方向。

常用场景

经典使用场景

Test di Medicina 数据集主要用于评估大型语言模型（LLMs）在意大利医学院入学考试中的表现。该数据集涵盖了生物学、化学、物理、数学、世界知识等多个学科的多项选择题，旨在通过多项选择和填空两种格式，全面测试模型在复杂医学知识领域的推理和生成能力。这一经典使用场景为研究者和开发者提供了一个标准化的评估平台，帮助其验证模型在医学领域的知识掌握程度。

解决学术问题

Test di Medicina 数据集解决了大型语言模型在医学领域知识评估中的难题。通过提供高质量的医学入学考试题目，该数据集为研究者提供了一个标准化的测试环境，帮助其评估模型在复杂医学知识中的表现。这不仅推动了模型在医学领域的应用研究，还为模型在跨学科知识整合和推理能力上的提升提供了重要参考。

实际应用

在实际应用中，Test di Medicina 数据集被广泛用于医学教育、智能辅导系统和医学知识问答系统的开发。通过评估模型在医学入学考试中的表现，教育机构可以更好地了解模型在医学知识传授中的潜力。同时，该数据集也为开发智能辅导系统提供了丰富的训练数据，帮助学生更高效地准备医学考试。

数据集最近研究