amia-18-mutation-corpus

github2023-03-30 更新2024-05-31 收录

下载链接：

https://github.com/ibm-aur-nlp/amia-18-mutation-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用brat工具进行标注的数据，位于data文件夹中。数据集分为训练集和测试集，每个集合包含文本和标注文件，文件名指示了文本来源的MEDLINE引用。

This dataset comprises data annotated using the brat tool, located within the data folder. The dataset is divided into training and test sets, each containing text and annotation files, with filenames indicating the MEDLINE references from which the texts are sourced.

创建时间：

2018-07-02

原始信息汇总

数据集概述

数据集名称

amia-18-mutation-corpus

数据集内容

数据组织：数据集位于data文件夹中，包含brat配置文件、标注指南和标注集合。
标注工具：使用brat工具进行标注，标注格式为brat格式。
数据集划分：
- 训练集：包含集合00, 01, 02, 03和04。
- 测试集：包含集合05, 06和07。
文件结构：每个集合包含文本和标注文件，文件名指示文本来源的MEDLINE引用。
预裁定数据：pre-adjudicated文件夹包含5位标注者在讨论前的个人标注。

许可证

本数据集根据Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License授权。

引用信息

如使用此数据集，请引用以下文献： Antonio Jimeno Yepes, Andrew MacKinlay, Natalie Gunn, Christine Schieber, Noel Faux, Matthew Downton, Benjamin Goudey, Richard L. Martin, A hybrid approach for automated mutation annotation of the extended human mutation landscape in scientific literature, American Medical Informatics Association (AMIA) Symposium, 2018

搜集汇总

数据集介绍

构建方式

amia-18-mutation-corpus数据集是通过对科学文献中的突变信息进行详细标注而构建的。标注工作使用了brat工具，该工具支持文本的精确标注和注释。数据集分为训练集和测试集，其中训练集包括00至04五个子集，测试集包括05至07三个子集。每个子集包含文本文件和对应的标注文件，文件名指示了文本来源的MEDLINE引用。此外，数据集还包含了五位标注者在讨论前的独立标注结果，这些结果保存在pre-adjudicated文件夹中。

使用方法

使用amia-18-mutation-corpus数据集时，研究者可以通过加载brat格式的标注文件，直接访问文本和对应的突变信息。数据集的结构清晰，用户可以根据文件名快速定位到特定的MEDLINE引用。对于模型训练，建议使用训练集进行参数优化，测试集则用于评估模型性能。此外，pre-adjudicated文件夹中的独立标注结果可用于分析标注者间的一致性，进一步提升标注质量。

背景与挑战

背景概述

amia-18-mutation-corpus数据集由Antonio Jimeno Yepes及其团队于2018年创建，旨在解决科学文献中人类基因突变注释的自动化问题。该数据集通过使用brat工具进行标注，涵盖了从MEDLINE引文中提取的文本数据，并分为训练集和测试集。研究团队采用混合方法，结合人工标注与自动化技术，以提升突变注释的准确性与效率。该数据集为生物医学信息学领域提供了重要的资源，推动了基因突变相关研究的进展，特别是在文献挖掘和知识发现方面具有显著影响力。

当前挑战

amia-18-mutation-corpus数据集在构建过程中面临多重挑战。首先，基因突变注释的复杂性要求标注者具备深厚的生物学知识，以确保标注的准确性和一致性。其次，科学文献中的突变描述通常具有多样性和模糊性，增加了自动化处理的难度。此外，数据集的构建需要协调多位标注者的工作，确保标注结果的可重复性和可靠性。尽管该数据集为突变注释提供了重要支持，但在处理大规模文献数据时，如何进一步提升自动化工具的泛化能力和效率仍是亟待解决的问题。

常用场景

经典使用场景

在生物医学信息学领域，amia-18-mutation-corpus数据集被广泛用于训练和测试自动化突变注释系统。该数据集通过提供详细的突变注释，支持研究人员开发算法以识别和分类科学文献中的突变信息，从而加速基因突变相关研究的进展。

解决学术问题

amia-18-mutation-corpus数据集解决了生物医学文献中突变信息提取的难题。通过提供高质量的标注数据，该数据集帮助研究人员克服了突变注释的复杂性，推动了自然语言处理技术在生物医学领域的应用，为基因突变研究提供了可靠的数据支持。

实际应用

在实际应用中，amia-18-mutation-corpus数据集被用于开发自动化工具，帮助生物医学研究人员从大量文献中快速提取突变信息。这些工具不仅提高了研究效率，还为个性化医疗和精准医学的发展提供了数据基础。

数据集最近研究