Chicago_corpus

github2021-02-04 更新2024-05-31 收录

下载链接：

https://github.com/arzhetsky/Chicago_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该研究为生物医学的高级命名实体分析工具贡献了六个组件：(a) 一个专为描述生物医学文本中的实体而开发的新命名实体识别本体论(NERO)，考虑了不同层次的歧义，连接了分子生物学、遗传学、生物化学和医学的科学子语言；(b) 详细的人类专家标注数百个命名实体类别的指南；(c) 所有命名实体的象形图，以简化管理员的标注负担；(d) 一个原始的、注释过的语料库，包含35,865个句子，封装了190,679个命名实体和43,438个连接两个或多个实体的事件；(e) 经过验证的、现成的命名实体识别自动提取；(f) 嵌入模型，展示了该语料库中嵌入的生物医学关联的潜力。

This research contributes six components to advanced named entity analysis tools in biomedicine: (a) a novel Named Entity Recognition Ontology (NERO) specifically developed for describing entities in biomedical texts, which considers various levels of ambiguity and connects scientific sublanguages of molecular biology, genetics, biochemistry, and medicine; (b) detailed guidelines for human expert annotation of hundreds of named entity categories; (c) pictograms for all named entities to simplify the annotation burden on administrators; (d) an original, annotated corpus containing 35,865 sentences, encapsulating 190,679 named entities and 43,438 events linking two or more entities; (e) validated, ready-to-use automatic extraction for named entity recognition; (f) embedding models demonstrating the potential of biomedical associations embedded in this corpus.

创建时间：

2021-02-04

原始信息汇总

数据集概述

名称: Chicago_corpus

描述: 该数据集是一个与生物医学文本相关的数据文件集合，主要用于支持高级的命名实体分析工具。

数据集组件

命名实体识别本体(NERO): 专为描述生物医学文本中的实体而开发，考虑了不同级别的模糊性，涵盖分子生物学、遗传学、生物化学和医学等多个科学子语言。
标注指南: 为专家提供详细的标注指南，用于标注数百种命名实体类别。
图示: 所有命名实体均配有图示，以简化标注者的标注负担。
标注语料库: 包含35,865个句子，涵盖190,679个命名实体和43,438个连接两个或多个实体的事件。
自动化提取工具: 验证过的命名实体识别自动化提取工具。
嵌入模型: 展示该语料库中嵌入的生物医学关联的潜力。

附加信息

图示存储: 图示存储在一个多部分的ZIP档案中，需要下载以下文件进行解压：
- pictographs.zip
- pictographs.z01
- pictographs.z02
- pictographs.z03

搜集汇总

数据集介绍

构建方式

Chicago_corpus数据集的构建依托于生物医学文本的深度分析，其核心在于开发了一套专门用于描述生物医学文本中实体的命名实体识别本体（NERO）。该本体充分考虑了生物医学领域的多义性，涵盖了分子生物学、遗传学、生物化学和医学等多个学科的专业术语。数据集的构建过程包括制定详细的标注指南，由人类专家对数百个命名实体类别进行标注，并辅以图示符号以简化标注工作。最终，数据集包含了35,865个句子，标注了190,679个命名实体和43,438个事件，形成了一个高质量的生物医学文本语料库。

特点

Chicago_corpus数据集的特点在于其高度的专业性和广泛的应用潜力。它不仅提供了一个全面的命名实体识别本体（NERO），还包含了丰富的标注数据和事件关联信息。数据集中每个命名实体均配有图示符号，极大地降低了标注的复杂性。此外，数据集还提供了经过验证的命名实体识别自动化提取工具和嵌入模型，展示了其在生物医学关联研究中的巨大潜力。这些特点使得该数据集成为生物医学文本分析领域的重要资源。

使用方法

使用Chicago_corpus数据集时，用户首先需要下载并解压包含图示符号的多部分ZIP文件。解压后，用户可以通过数据集提供的命名实体识别本体（NERO）和标注指南，对生物医学文本进行深入分析。数据集中的自动化提取工具和嵌入模型可直接用于命名实体识别和关联分析任务。研究人员可以利用该数据集训练和验证自己的模型，或直接使用其提供的工具进行生物医学文本的实体和事件提取，从而推动生物医学信息抽取领域的研究进展。

背景与挑战

背景概述

Chicago_corpus数据集由生物医学文本相关数据文件组成，旨在推动生物医学领域的命名实体识别研究。该数据集由多个研究机构合作开发，核心贡献包括一个专门为生物医学文本设计的命名实体识别本体（NERO），以及详细的标注指南和丰富的标注数据。数据集包含35,865个句子，涵盖了190,679个命名实体和43,438个事件，为分子生物学、遗传学、生物化学和医学等领域的文本分析提供了重要支持。其嵌入模型展示了生物医学关联的潜力，为相关领域的研究提供了新的视角和工具。

当前挑战

Chicago_corpus数据集在构建过程中面临多重挑战。首先，生物医学文本的复杂性和多样性使得命名实体识别任务尤为困难，尤其是在处理多义性和跨学科术语时。其次，标注过程需要高度专业化的知识，以确保标注的准确性和一致性，这对标注人员的专业素养提出了极高要求。此外，数据集的规模庞大，标注和验证工作耗时耗力，进一步增加了构建难度。尽管数据集提供了自动化提取工具，但其在实际应用中的性能仍需进一步优化，以应对生物医学文本的多样性和复杂性。

常用场景

经典使用场景

Chicago_corpus数据集在生物医学文本分析领域具有广泛的应用，尤其是在命名实体识别（NER）任务中。该数据集通过提供详细的命名实体识别本体（NERO）和丰富的标注指南，为研究人员提供了一个标准化的工具，用于识别和分类生物医学文本中的各类实体。其包含的35,865个句子和190,679个命名实体，为训练和验证NER模型提供了高质量的标注数据。

解决学术问题

Chicago_corpus数据集解决了生物医学文本分析中的多个关键问题，特别是命名实体识别的复杂性和多样性。通过引入NERO本体，该数据集有效处理了生物医学领域中实体命名的模糊性和多样性问题，涵盖了分子生物学、遗传学、生物化学和医学等多个子领域。此外，其提供的自动化实体提取工具和嵌入模型，显著提升了生物医学文本分析的效率和准确性，为相关研究提供了强有力的支持。

衍生相关工作

基于Chicago_corpus数据集，许多经典的研究工作得以展开。例如，研究人员利用该数据集开发了多种先进的命名实体识别模型，这些模型在生物医学文本分析中表现出色。此外，该数据集还催生了一系列生物医学信息提取工具和知识图谱构建方法，极大地推动了生物医学文本挖掘领域的发展。这些衍生工作不仅提升了生物医学研究的效率，还为未来的研究提供了新的方向和思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集