five

Harvey Corpus

收藏
github2019-09-05 更新2024-05-31 收录
下载链接:
https://github.com/savkov/harvey-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Harvey语料库是一个收集了语言学标注的去标识化临床文本集合。数据包括初级医疗患者检查笔记(全科医生笔记),并带有多层语言学标注。数据被授权给萨塞克斯大学和布莱顿与苏塞克斯医学院的PREP项目。第一层标注包含由cTAKES自动分配的词性标签,其他两层包含手动标注的语法块和命名实体(表达式)。

The Harvey Corpus is a collection of de-identified clinical texts annotated with linguistic information. The dataset comprises primary care patient examination notes (general practitioner notes) with multiple layers of linguistic annotations. The data is licensed to the PREP project at the University of Sussex and Brighton and Sussex Medical School. The first layer of annotation includes part-of-speech tags automatically assigned by cTAKES, while the other two layers contain manually annotated syntactic chunks and named entities (expressions).
创建时间:
2015-09-04
原始信息汇总

Harvey Corpus 数据集概述

数据集描述

  • 名称: Harvey Corpus
  • 类型: 临床文本数据集
  • 内容: 包含经过语言学注释的去标识化初级医疗患者检查笔记(GP笔记)。
  • 注释层:
    • 第一层: 自动分配的词性标签,使用cTAKES工具。
    • 第二层: 手动注释的句法块。
    • 第三层: 手动注释的命名实体(表达式)。

数据集文件

  • 注释指南: guidelines.pdf
  • 句法块注释: annotation/harvey-chunks-redacted.txt
  • 语义表达注释: annotation/harvey-expressions-redacted.txt

数据集用途

  • 授权给: PREP项目,位于苏塞克斯大学和布莱顿与苏塞克斯医学院。

许可证

  • 许可证类型: GPL许可证

参考文献

  • 文献: bibtex @Article{Savkov2016, author="Savkov, Aleksandar and Carroll, John and Koeling, Rob and Cassell, Jackie", title="Annotating patient clinical records with syntactic chunks and named entities: the Harvey Corpus", journal="Language Resources and Evaluation", year="2016", month="Sep", day="01", volume="50", number="3", pages="523--548", issn="1574-0218", doi="10.1007/s10579-015-9330-7", url="https://doi.org/10.1007/s10579-015-9330-7" }
搜集汇总
数据集介绍
main_image_url
构建方式
Harvey Corpus 数据集的构建,是基于对初诊患者体检记录(GP notes)的深度语言学标注。该数据集首先通过 [cTAKES](http://ctakes.apache.org/index.html) 工具自动赋予词性标注作为第一层标注,随后由人工完成句法块和命名实体的标注,形成了后续两层人工标注数据。
特点
Harvey Corpus 数据集的特点在于其包含了深度语言学标注的脱敏临床文本。其标注内容涉及词性、句法块以及命名实体,为临床文本的自然语言处理研究提供了丰富的信息资源。此外,该数据集遵循GPL许可,保证了其使用的开放性与广泛性。
使用方法
使用 Harvey Corpus 数据集时,研究者可以依据其提供的标注指南进行相应的标注解读。该数据集的文件包括标注指南、句法块标注以及语义表达式标注,均可在遵守GPL许可的前提下,用于学术研究和相关应用开发。
背景与挑战
背景概述
Harvey Corpus数据集,作为一项重要的语言资源,其构建旨在为临床文本的语义分析提供标注基准。该数据集由萨塞克斯大学和布莱顿与萨塞克斯医学院的PREP项目所创建,并由Savkov等研究人员在2016年通过论文《Annotating patient clinical records with syntactic chunks and named entities: the Harvey Corpus》进行了详细的介绍。Harvey Corpus包含了经过去识别处理的初级保健患者检查笔记,并具有多种语言注释层,其中包括自动分配的词性标注、手动标注的句法块和命名实体。这一数据集的建立,为临床自然语言处理领域提供了宝贵的资源,对于提升临床文本理解和信息提取的研究具有显著影响。
当前挑战
在构建Harvey Corpus数据集的过程中,研究人员面临了多项挑战。首先,如何在确保患者隐私的前提下,对临床文本进行有效的去识别处理,是一大挑战。其次,对于临床文本的语义理解,自动与手动标注之间的准确性平衡,以及如何制定合理的标注指南,确保标注质量,均为构建过程中的难点。此外,数据集构建完成后,如何合理地评估其在临床自然语言处理任务中的有效性,以及如何确保数据集的广泛适用性和可扩展性,也是当前面临的挑战。
常用场景
经典使用场景
在自然语言处理与医学文本挖掘领域,Harvey Corpus数据集的经典使用场景主要在于为研究者提供了一个深度标注的医学文本资源。其丰富的语言学标注层,包括自动分配的词性标注以及人工标注的句法块和命名实体,使得该数据集成为训练和评估文本分类、实体识别和关系抽取等任务的宝贵资源。
衍生相关工作
基于Harvey Corpus数据集的研究衍生了多项经典工作,如开发更精确的医学文本挖掘工具、探索跨语言医学信息处理的策略等。这些研究不仅提升了自然语言处理技术在医学领域的应用水平,也为医学知识的传播和创新提供了技术支持。
数据集最近研究
最新研究方向
在自然语言处理与医疗信息学交叉领域,Harvey Corpus作为一组语言注释的临床文本集合,其研究前沿主要集中在深度学习模型在临床文本中的语义理解和实体识别应用。近期研究聚焦于通过该数据集提升自动标注系统的准确性,以及探索更为精细的语法结构分析对医疗诊断支持的潜力。此外,借助Harvey Corpus中的多层级注释,研究者能够构建更为复杂的医疗信息提取模型,进而推动电子健康记录的智能化处理,这对于提高医疗文档处理的效率和质量,促进医疗资源的合理分配具有重要的现实意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作