Harvey Corpus

github2019-09-05 更新2024-05-31 收录

下载链接：

https://github.com/savkov/harvey-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Harvey语料库是一个收集了语言学标注的去标识化临床文本集合。数据包括初级医疗患者检查笔记（全科医生笔记），并带有多层语言学标注。数据被授权给萨塞克斯大学和布莱顿与苏塞克斯医学院的PREP项目。第一层标注包含由cTAKES自动分配的词性标签，其他两层包含手动标注的语法块和命名实体（表达式）。

The Harvey Corpus is a collection of de-identified clinical texts annotated with linguistic information. The dataset comprises primary care patient examination notes (general practitioner notes) with multiple layers of linguistic annotations. The data is licensed to the PREP project at the University of Sussex and Brighton and Sussex Medical School. The first layer of annotation includes part-of-speech tags automatically assigned by cTAKES, while the other two layers contain manually annotated syntactic chunks and named entities (expressions).

创建时间：

2015-09-04

原始信息汇总

Harvey Corpus 数据集概述

数据集描述

名称: Harvey Corpus
类型: 临床文本数据集
内容: 包含经过语言学注释的去标识化初级医疗患者检查笔记（GP笔记）。
注释层:
- 第一层: 自动分配的词性标签，使用cTAKES工具。
- 第二层: 手动注释的句法块。
- 第三层: 手动注释的命名实体（表达式）。

数据集文件

注释指南: guidelines.pdf
句法块注释: annotation/harvey-chunks-redacted.txt
语义表达注释: annotation/harvey-expressions-redacted.txt

数据集用途

授权给: PREP项目，位于苏塞克斯大学和布莱顿与苏塞克斯医学院。

许可证

许可证类型: GPL许可证

参考文献

文献: bibtex @Article{Savkov2016, author="Savkov, Aleksandar and Carroll, John and Koeling, Rob and Cassell, Jackie", title="Annotating patient clinical records with syntactic chunks and named entities: the Harvey Corpus", journal="Language Resources and Evaluation", year="2016", month="Sep", day="01", volume="50", number="3", pages="523--548", issn="1574-0218", doi="10.1007/s10579-015-9330-7", url="https://doi.org/10.1007/s10579-015-9330-7" }

搜集汇总

数据集介绍

构建方式

Harvey Corpus 数据集的构建，是基于对初诊患者体检记录（GP notes）的深度语言学标注。该数据集首先通过 [cTAKES](http://ctakes.apache.org/index.html) 工具自动赋予词性标注作为第一层标注，随后由人工完成句法块和命名实体的标注，形成了后续两层人工标注数据。

特点

Harvey Corpus 数据集的特点在于其包含了深度语言学标注的脱敏临床文本。其标注内容涉及词性、句法块以及命名实体，为临床文本的自然语言处理研究提供了丰富的信息资源。此外，该数据集遵循GPL许可，保证了其使用的开放性与广泛性。

使用方法

使用 Harvey Corpus 数据集时，研究者可以依据其提供的标注指南进行相应的标注解读。该数据集的文件包括标注指南、句法块标注以及语义表达式标注，均可在遵守GPL许可的前提下，用于学术研究和相关应用开发。

背景与挑战

背景概述

Harvey Corpus数据集，作为一项重要的语言资源，其构建旨在为临床文本的语义分析提供标注基准。该数据集由萨塞克斯大学和布莱顿与萨塞克斯医学院的PREP项目所创建，并由Savkov等研究人员在2016年通过论文《Annotating patient clinical records with syntactic chunks and named entities: the Harvey Corpus》进行了详细的介绍。Harvey Corpus包含了经过去识别处理的初级保健患者检查笔记，并具有多种语言注释层，其中包括自动分配的词性标注、手动标注的句法块和命名实体。这一数据集的建立，为临床自然语言处理领域提供了宝贵的资源，对于提升临床文本理解和信息提取的研究具有显著影响。

当前挑战

在构建Harvey Corpus数据集的过程中，研究人员面临了多项挑战。首先，如何在确保患者隐私的前提下，对临床文本进行有效的去识别处理，是一大挑战。其次，对于临床文本的语义理解，自动与手动标注之间的准确性平衡，以及如何制定合理的标注指南，确保标注质量，均为构建过程中的难点。此外，数据集构建完成后，如何合理地评估其在临床自然语言处理任务中的有效性，以及如何确保数据集的广泛适用性和可扩展性，也是当前面临的挑战。

常用场景

经典使用场景

在自然语言处理与医学文本挖掘领域，Harvey Corpus数据集的经典使用场景主要在于为研究者提供了一个深度标注的医学文本资源。其丰富的语言学标注层，包括自动分配的词性标注以及人工标注的句法块和命名实体，使得该数据集成为训练和评估文本分类、实体识别和关系抽取等任务的宝贵资源。

衍生相关工作

基于Harvey Corpus数据集的研究衍生了多项经典工作，如开发更精确的医学文本挖掘工具、探索跨语言医学信息处理的策略等。这些研究不仅提升了自然语言处理技术在医学领域的应用水平，也为医学知识的传播和创新提供了技术支持。

数据集最近研究