MentiCor

github2020-05-15 更新2024-05-31 收录

下载链接：

https://github.com/AnikaO/MentiCor_FTCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

MentiCor是一个专为Dementia研究构建的全文出版物语料库，旨在通过自动对齐科学文献和电子健康记录来开发和改进文本分析工具。该语料库关注年龄、性别、种族、表型、疾病、药物、治疗、测量和人口统计信息等实体，并采用Core Scientific Concept (CoreSC) 注释方案来处理科学论文的论述结构。

MentiCor is a full-text publication corpus specifically constructed for dementia research, aimed at developing and enhancing text analysis tools through the automatic alignment of scientific literature and electronic health records. This corpus focuses on entities such as age, gender, ethnicity, phenotype, disease, medication, treatment, measurement, and demographic information, and employs the Core Scientific Concept (CoreSC) annotation scheme to process the discourse structure of scientific papers.

创建时间：

2016-11-18

原始信息汇总

数据集概述

数据集名称

MentiCor: a full text corpus for Dementia

数据集目的

构建一个用于分析文本信息的金标准，以支持自动对齐已发表的科学文献和电子健康记录的工具开发和持续改进。

数据集内容

实体类型：年龄、年龄组、性别、种族、表型、疾病、药物、治疗（非药物治疗如音乐疗法）、测量（可访问的量表最小和最大值）和人口统计信息。
结构信息：科学论文的论述结构，遵循Core Scientific Concept (CoreSC) 标注方案。

标注工具和指南

实体标注指南：可在此处访问 Entity_annotations_MI_v0.1.pdf。
标注工具：使用Brat进行文本标注。
结构信息标注：遵循Ravenscroft等人的最新标注指南，使用Sapient标注界面进行标注。

数据集访问

经过清理和合并三位不同管理员的标注后，数据集可在此处访问 MentiCor_FTCorpus/corpus。

搜集汇总

数据集介绍

构建方式

MentiCor数据集的构建，旨在通过整合已发布的科学文献与电子健康记录，为开发能够可靠分析文本信息的工具提供支持。该数据集的实体与结构信息的选择，遵循与电子健康记录系统的兼容性原则，以便于后期的整合。实体类型包括研究参与者的年龄、年龄组、性别、民族等人口统计学信息，以及表型、疾病、药物、非药物治疗（如音乐治疗）、度量（可获取的量表最小值和最大值）等。在构建过程中，采用Brat工具进行文本注释，并依据Core Scientific Concept（CoreSC）方案对文献结构信息进行标注。

使用方法

使用MentiCor数据集，研究者可以访问到经过精心注释的全文文本，这些文本可通过GitHub获取。用户应当首先熟悉数据集中的实体类型和CoreSC标注方案，然后利用提供的Sapient注释界面，可以方便地进行在线标注或配置服务器使用。数据集的构建方式和使用指南，使得它成为开发文本分析工具和进行相关研究的有力资源。

背景与挑战

背景概述

MentiCor数据集的创建，旨在为阿尔茨海默病（Dementia）领域的文本信息分析工具提供一种可靠的金标准资源。该数据集的构建始于对公开发表的科学文献与电子健康记录自动对齐工具的开发需求。由AnikaO团队负责，此项目汇集了特定实体的信息，如年龄、性别、民族、表型、疾病、药物、治疗措施及人口统计信息，以促进工具的针对性开发与持续优化。MentiCor数据集自构建以来，为相关领域的研究提供了宝贵的资源，对于推动阿尔茨海默病研究具有一定的科学影响力。

当前挑战

MentiCor数据集在构建过程中面临着多项挑战。首先，如何准确定义并提取相关实体，确保与电子健康记录系统的整合性，是一个关键挑战。其次，构建结构化信息，尤其是遵循Core Scientific Concept（CoreSC）标注方案对科学论文的话语进行标注，需要高度精确的标注指南和工具。此外，数据集的清洁与合并工作，涉及多 curator 的标注一致性，也是保证数据集质量的重要环节。MentiCor数据集在解决阿尔茨海默病领域文本分析问题中，如何进一步提升标注准确度和扩展数据集规模，是当前研究面临的挑战。

常用场景

经典使用场景

在自然语言处理与生物医学信息学交叉领域，MentiCor数据集作为一份针对痴呆症领域全文文本的语料库，其经典使用场景主要集中于为文本挖掘工具提供高质量的标注数据，从而促进工具的针对性与精确性。通过该数据集，研究者能够开发并不断优化那些能够自动对齐已发表科学文献与电子健康记录的分析工具。

解决学术问题

MentiCor数据集针对学术研究中对痴呆症相关文本进行实体和结构信息提取的难题，提供了标准化的解决方案。它不仅明确了研究参与者的人口统计学特征、表型、疾病、药物和治疗等实体的类型，而且还对科学论文的论述结构进行了详细标注，从而解决了如何准确提取和利用文献中丰富信息的问题，对于提高医学研究效率与质量具有显著意义。

实际应用

在实践应用方面，MentiCor数据集可用于构建和训练医疗信息检索系统，支持电子健康记录的整合，以及辅助临床决策支持系统的开发。它使得研究人员能够更好地理解痴呆症相关文献的内容和结构，进而促进医疗信息的有效利用和知识的深入挖掘。

数据集最近研究