MIE Conference Dataset

Name: MIE Conference Dataset
Creator: 伊朗大学医学科学心血管研究所
Published: 2024-10-07 03:34:23
License: 暂无描述

arXiv2024-10-07 更新2024-10-09 收录

下载链接：

https://github.com/EhsanBitaraf/dataset-mie-literature

下载链接

链接失效反馈

官方服务：

资源简介：

MIE Conference Dataset是由伊朗大学医学科学心血管研究所和维也纳医科大学数据科学中心创建的，涵盖了1996年以来的MIE会议论文。该数据集包含4606篇文章的详细信息，包括元数据、摘要、提取的主题和标准化的机构信息。数据集的创建过程包括使用Triple-A软件进行数据获取、TextRank算法进行主题提取和机构解析。该数据集主要用于医学信息学领域的趋势分析、合作网络分析和深入的文献计量研究，旨在解决大规模科学文献的分析和综合问题。

The MIE Conference Dataset was created by the Cardiovascular Institute of Iran University of Medical Sciences and the Data Science Center of Medical University of Vienna, encompassing papers from MIE conferences since 1996. This dataset provides detailed information for 4606 articles, including metadata, abstracts, extracted topics, and standardized institutional information. The dataset development workflow includes data acquisition using Triple-A software, as well as topic extraction and affiliation parsing via the TextRank algorithm. Primarily, this dataset is applied for trend analysis, collaboration network analysis and in-depth bibliometric research in the field of medical informatics, with the objective of addressing the challenges of analyzing and synthesizing large-scale scientific literature.

提供机构：

伊朗大学医学科学心血管研究所

创建时间：

2024-10-07

原始信息汇总

Dataset MIE Literature

数据集概述

数据来源: 从PubMed提取的4606篇文章，涵盖1996年至2024年MIE（Medical Informatics Europe Conference）会议。
数据处理: 包含主题提取和作者隶属关系解析。
数据格式: JSON文件。
数据字段:
- title: 文章标题
- year: 出版年份
- abstract: 文章摘要
- journal_issn: 期刊的国际标准期刊号（ISSN）
- language: 文章语言（如“eng”表示英语）
- doi: 文章的数字对象标识符（DOI），如果可用
- pmid: 文章的PubMed ID
- citation_count: 文章被引用的次数
- IOSPressVolume: IOS Press出版系列的卷号
- publication_type: 出版类型（如“Journal Article”）
- authors: 作者姓名列表
- keywords: PubMed中与文章关联的关键词列表
- topics: 通过无监督主题提取机制提取的前10个主题
- affiliation_countries: 作者隶属关系关联的国家，通过描述的算法提取
- affiliations: 作者隶属关系列表

数据使用

数据获取: 通过此链接获取数据集。
Python代码示例: python def load_dataset_mie(): ds_path = DATA_DIR / "dataset-ios.json" with open(ds_path, "r", encoding="utf-8") as json_file: data = json.load(json_file) return data

数据创建

环境设置: 使用Python虚拟环境并安装依赖项。
创建步骤:
1. 检查TripleA配置
2. 从PubMed获取相关论文
3. 使用TripleA处理论文元数据和内容
4. 根据MIE会议的卷号过滤数据
5. 导出数据集

数据分析

分析示例: 使用Jupyter Notebook进行初步数据集审查。

数据可用性

数据集链接: MIE Dataset
许可证: CC BY 4.0

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对Medical Informatics Europe (MIE)会议论文集的深入处理，涵盖了自1996年以来的4,606篇论文。利用Triple-A软件，从PubMed数据库中提取并处理了这些论文的元数据和摘要。特别地，采用了TextRank算法进行主题提取，并通过GitHub上的专用模块进行机构解析，以确保数据的结构化和标准化。最终，数据以JSON格式输出，便于广泛的应用和分析。

使用方法

该数据集适用于多种研究目的，包括但不限于文献计量分析、主题建模、合作网络分析和地理分布研究。研究者可以通过分析引用次数和作者信息，识别领域内的关键论文和重要学者。主题提取的结果可用于追踪研究热点和趋势。此外，机构解析的数据有助于理解全球范围内的研究合作模式和机构影响力。数据集的JSON格式确保了其与各种数据处理和分析工具的兼容性。

背景与挑战

背景概述

在快速发展的医疗信息学领域，文献的迅速扩张给综合和分析研究趋势带来了显著挑战。MIE会议数据集应运而生，旨在满足该领域对复杂分析工具的需求。该数据集由伊朗德黑兰医科大学心血管研究所的Ehsan Bitaraf和维也纳医科大学的Maryam Jafarpour领导的研究团队创建，涵盖了自1996年以来在'Studies in Health Technology and Informatics'期刊系列中发表的4606篇文章。通过使用Triple-A软件，研究团队提取并处理了这些文章的元数据和摘要，结合了如TextRank算法等先进技术进行主题提取和机构解析。该数据集不仅展示了开放数据在推动科学进步中的力量，还展示了智能工具在管理和分析大量科学信息中的潜力。

当前挑战

MIE会议数据集在构建过程中面临多项挑战。首先，数据集依赖于PubMed的索引，这可能导致某些未被PubMed索引的会议和文章被遗漏。其次，尽管使用了先进的主题提取和机构解析技术，但仍存在数据不完整和解析不准确的问题，特别是在处理复杂的跨机构合作时。此外，数据集中存在语言多样性问题，尽管主要以英语为主，但某些年份的会议文章包含非英语内容，这增加了数据处理的复杂性。最后，数据集的更新和维护也是一个持续的挑战，需要定期从PubMed获取最新数据并进行处理，以确保数据集的时效性和完整性。

常用场景

经典使用场景

MIE Conference Dataset的经典使用场景主要集中在医学信息学的研究趋势分析和学术文献的深度挖掘。通过该数据集，研究者可以进行纵向研究，追踪医学信息学领域的发展轨迹，识别新兴趋势和研究热点。此外，数据集中的主题提取和隶属关系解析功能，使得研究者能够对文献内容进行精细化的分析，从而揭示出隐藏在大量文献中的关键信息和模式。

解决学术问题

MIE Conference Dataset解决了医学信息学领域中对大量学术文献进行有效分析和综合的难题。该数据集通过提供结构化的文献元数据、提取的主题和标准化的隶属关系信息，使得研究者能够进行复杂的文献计量分析、合作网络分析和主题建模。这些功能不仅有助于识别领域内的关键研究成果和影响因子，还为未来的研究方向提供了宝贵的参考。

实际应用

MIE Conference Dataset在实际应用中具有广泛的价值，特别是在医学信息学教育和政策制定方面。教育者可以利用该数据集来更新和优化课程内容，确保教学内容与当前的研究趋势保持一致。政策制定者则可以通过分析数据集中的地理分布和合作网络信息，制定更加科学和有效的研究资助和国际合作策略。此外，该数据集还可以帮助行业追踪技术趋势，指导医疗信息技术的投资和应用。

数据集最近研究