ent-rel-outcome-switch
收藏Hugging Face2025-01-02 更新2025-01-03 收录
下载链接:
https://huggingface.co/datasets/laiking/ent-rel-outcome-switch
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'Primary and Secondary Outcomes Manually Annotated Corpus',包含86篇COVID-19随机对照试验的文章。每篇文章的部分全文或摘要被提取出来,这些部分被认为包含有关临床试验结果的信息。提取过程使用了Entrez API和XML解析器,以及多个正则表达式来检测结果部分。数据集的目标是注释实体和关系,以检测临床试验注册和发布之间的差异,包括:评估主要结果的时间变化、论文中引入的新主要结果、论文中未报告的注册主要结果、论文中将注册的主要终点报告为次要结果、以及论文中将注册的次要结果报告为主要结果。注释工作由两名流行病学和统计学的硕士生完成,使用brat工具进行,并由一名具有基本临床试验知识的NLP博士生进行裁决。
创建时间:
2024-12-22
原始信息汇总
数据集概述
数据集名称
Primary and Secondary Outcomes Manually Annotated Corpus
语言
- 英语 (en)
许可证
- CC BY-NC-SA 4.0
数据集内容
- 包含86篇COVID-19随机对照试验文章。
- 每篇文章的部分全文或摘要通过Entrez API提取,并使用XML解析器和正则表达式检测结果部分。
- 标注了实体和关系,用于检测临床试验注册与发表之间的差异,包括:
- 主要结果评估时间的变化
- 文章中引入的新主要结果
- 注册的主要结果未在文章中报告
- 注册的主要终点在文章中被报告为次要结果
- 注册的次要结果在文章中被报告为主要结果
标注者
- 2名流行病学和统计学硕士生使用brat进行实体和关系标注。
- 1名具有基本临床试验知识的NLP博士生进行裁决。
相关资源
- 处理该数据集的代码可在GitHub上公开获取。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于86篇COVID-19随机对照试验文章,通过Entrez API提取了包含临床试验结果信息的全文或摘要部分,并利用XML解析器和正则表达式识别结果部分。其核心目标在于标注实体和关系,以检测临床试验注册与发表之间的差异。标注工作由两名流行病学与统计学硕士生使用brat工具完成,并由一名具备临床试验基础知识的NLP博士生进行裁决。
特点
该数据集的特点在于其专注于COVID-19临床试验结果的标注,涵盖了临床试验注册与发表之间的多种差异类型,如主要结果评估时间的变化、新引入的主要结果、未报告的主要结果等。其标注过程经过严格的多重验证,确保了数据的准确性和可靠性。此外,数据集的处理代码已公开,为研究者提供了透明且可复现的研究基础。
使用方法
该数据集适用于研究临床试验注册与发表之间差异的检测,特别是针对COVID-19相关研究。研究者可通过公开的代码对数据进行进一步处理和分析,结合标注的实体和关系,探索临床试验结果报告中的不一致性。此外,数据集还可用于训练和评估自然语言处理模型,以提升其在医学文本分析中的性能。
背景与挑战
背景概述
在医学研究领域,随机对照试验(RCT)是评估治疗效果的金标准。然而,临床试验注册与发表结果之间的不一致性问题日益引起关注。ent-rel-outcome-switch数据集由流行病学与统计学领域的硕士研究生创建,旨在通过手动标注86篇COVID-19随机对照试验文章中的实体和关系,揭示临床试验注册与发表结果之间的差异。该数据集的核心研究问题包括主要和次要结果的时间点变更、新引入的主要结果、未报告的主要结果以及主要和次要结果的互换等。这一研究为提升临床试验透明度和结果报告的一致性提供了重要数据支持。
当前挑战
ent-rel-outcome-switch数据集在构建和应用过程中面临多重挑战。首先,临床试验文本的复杂性和多样性使得实体和关系的准确标注变得困难,尤其是涉及时间点和结果类型的细微差异。其次,数据集的构建依赖于人工标注,尽管有第三位自然语言处理领域的博士生进行仲裁,但不同标注者之间的主观判断仍可能导致标注不一致。此外,数据集规模相对较小,仅包含86篇文章,可能限制了其在不同场景下的泛化能力。最后,尽管使用了正则表达式和XML解析技术提取文本,但自动化工具的局限性可能导致部分关键信息遗漏,进一步增加了数据处理的复杂性。
常用场景
经典使用场景
在医学研究领域,特别是在COVID-19随机对照试验(RCT)的分析中,ent-rel-outcome-switch数据集被广泛用于识别和标注临床试验注册与发表文章之间的不一致性。通过提取文章全文或摘要中的关键部分,该数据集帮助研究者精确标注实体和关系,从而揭示临床试验结果的变化情况。
实际应用
在实际应用中,ent-rel-outcome-switch数据集被用于自动化工具的开发,以监测和报告临床试验结果的不一致性。这些工具可以帮助监管机构、研究者和期刊编辑更有效地审查和验证临床试验数据的准确性,从而提高医学研究的整体质量。
衍生相关工作
基于ent-rel-outcome-switch数据集,多项相关研究得以展开,包括开发更先进的自然语言处理模型来识别临床试验结果的变化,以及构建更全面的数据库来存储和共享这些标注数据。这些工作进一步推动了医学信息学和临床试验透明化领域的发展。
以上内容由遇见数据集搜集并总结生成



