HICRIC
收藏github2024-12-15 更新2024-12-18 收录
下载链接:
https://github.com/TPAFS/hicric
下载链接
链接失效反馈官方服务:
资源简介:
HICRIC是一个精心策划的权威法律和医学文本集合,旨在支持需要理解美国健康保险覆盖规则的应用。该语料库包含来自六个类别的文档:法律、监管指南、覆盖规则、政策意见、案例描述和临床指南。它主要用于预训练语言模型和作为检索应用的知识库。
HICRIC is a curated authoritative collection of legal and medical texts, designed to support applications that require understanding of U.S. health insurance coverage rules. This corpus contains documents across six categories: legal materials, regulatory guidelines, coverage rules, policy opinions, case descriptions, and clinical guidelines. It is primarily used for pre-training language models and as a knowledge base for retrieval applications.
创建时间:
2024-12-11
原始信息汇总
HICRIC: 健康保险覆盖规则解释语料库
数据集概述
HICRIC(Health Insurance Coverage Rules Interpretation Corpus)是一个精心策划的、包含法律和医学文本的语料库,旨在支持理解美国健康保险覆盖规则的应用。该语料库主要用于预训练语言模型和作为检索应用的知识库。
数据集组成
语料库
语料库包含六种类型的文档:
- legal(法律)
- regulatory-guidance(监管指南)
- contract-coverage-rule-medical-policy(合同覆盖规则和医疗政策)
- opinion-policy-summary(政策意见摘要)
- case-description(案例描述)
- clinical-guidelines(临床指南)
此外,每个文档还带有一个kb标签,表示该文档适合用作知识库。
语料库统计
| 类别 | 文档数量 | 单词数 | 字符数 | 大小(GB) |
|---|---|---|---|---|
| 所有分区部分 | 8,310 | 417,617,646 | 2,699,256,987 | 2.81 |
| kb | 1,434 | 170,717,368 | 1,120,961,295 | 1.13 |
| legal | 335 | 92,357,802 | 596,044,008 | 0.60 |
| regulatory-guidance | 1,110 | 5,536,585 | 38,607,587 | 0.04 |
| contract-coverage-rule-medical-policy | 7 | 196,156,813 | 1,228,184,524 | 1.31 |
| opinion-policy-summary | 2,094 | 19,462,399 | 133,049,956 | 0.14 |
| case-description | 2,629 | 214,267,074 | 1,351,074,791 | 1.45 |
| clinical-guidelines | 2,150 | 81,955,020 | 553,041,990 | 0.56 |
裁决基准
除了未标注的语料库外,还发布了一个用于外部上诉结果预测任务的v0基准。该基准包含(背景上下文,外部上诉结果,充分性标签)三元组。
数据使用
访问
- 语料库:可在Huggingface上获取,地址为https://huggingface.co/datasets/Persius/hicric。
- 案例裁决:可在Huggingface上获取,地址为https://huggingface.co/datasets/Persius/imr-appeals。
重新分发
请自行查阅所有源数据的许可证,如果您计划重新分发任何数据。
风险
数据集存在潜在的偏见传播和误用风险。
限制
数据集存在任务缺陷、基准简单性和语料库缺陷等限制。
许可证
- 原始数据、文档和媒体:采用Creative Commons Attribution-ShareAlike 4.0 International License。
- 代码:采用Apache 2.0 License。
搜集汇总
数据集介绍

构建方式
HICRIC数据集的构建基于对美国健康保险覆盖规则的深入理解,汇集了来自法律、监管指南、覆盖规则、政策意见、案例描述和临床指南等六个类别的文档。数据集的构建过程中,采用了特定的分区标签,确保每个文档与一个标签精确对应,且所有标签均被有效使用。此外,引入了‘kb’标签,用于标识适合作为知识库使用的文档,这些文档来源于权威且具有定义性的来源。数据集的构建旨在支持患者对不当保险拒绝的上诉,并为上诉结果预测任务提供基准数据集。
特点
HICRIC数据集的显著特点在于其多源、多类别的文档结构,涵盖了法律、监管、医疗政策等多个领域,为语言模型的预训练和知识库的构建提供了丰富的资源。数据集中的文档均配备了分区标签和‘kb’标签,便于用户根据需求进行筛选和使用。此外,数据集还包含一个上诉结果预测的基准数据集,支持上诉结果的预测任务,进一步增强了其实用性和研究价值。
使用方法
HICRIC数据集可通过Huggingface平台进行访问,用户可以使用提供的脚本下载数据集。数据集主要用于预训练语言模型和作为检索应用的知识库。对于上诉结果预测任务,用户可以下载基准数据集,并使用提供的代码进行模型训练。数据集的使用方法包括下载、处理和训练模型,用户可以根据需求选择不同的预处理和训练步骤,以实现数据集的有效利用。
背景与挑战
背景概述
HICRIC(Health Insurance Coverage Rules Interpretation Corpus)是一个精心策划的法律和医学文本集合,旨在支持对美国健康保险覆盖规则的理解。该数据集由六个类别的文档组成,包括法律、监管指南、覆盖规则、政策意见、案例描述和临床指南。HICRIC的主要目的是用于预训练语言模型,并作为检索应用的知识库。该数据集的创建特别关注于支持患者对不当健康保险拒绝的申诉,尤其是通过训练申诉信生成器来实现这一目标。此外,HICRIC还引入了申诉结果裁决任务,并构建了一个基准数据集来支持申诉结果预测。
当前挑战
HICRIC数据集在构建过程中面临多个挑战。首先,数据集的多样性和复杂性要求对不同类型的文档进行精确分类和标记,以确保数据的有效性和一致性。其次,数据集的构建需要处理大量的法律和医学文本,这些文本通常具有高度的专业性和复杂性,增加了数据处理的难度。此外,数据集的发布还涉及潜在的偏见传播和数据滥用风险,这需要在数据发布前进行充分的评估和风险管理。最后,数据集的简单性和任务的复杂性之间的平衡也是一个挑战,确保数据集既能够支持复杂的模型训练,又不会过于复杂而难以使用。
常用场景
经典使用场景
HICRIC数据集的经典使用场景主要集中在健康保险覆盖规则的理解与应用上。该数据集通过整合法律、监管指南、覆盖规则、政策意见、案例描述和临床指南等多类文档,为预训练语言模型提供了丰富的语料库。其核心应用之一是生成上诉信件,帮助患者应对不合理的保险拒绝。此外,HICRIC还支持上诉结果预测任务,通过构建基准数据集,研究人员可以训练模型预测上诉结果,从而为患者提供更精准的法律和医疗支持。
解决学术问题
HICRIC数据集解决了健康保险领域中关于保险覆盖规则理解与上诉结果预测的关键学术问题。通过提供多源、多类型的文档,该数据集为研究者提供了丰富的语料,支持语言模型的预训练和知识库的构建。其上诉结果预测任务为学术界提供了一个标准化的基准,推动了相关领域的研究进展。此外,HICRIC还通过减少保险拒绝中的偏见和不公正,提升了健康保险系统的透明度和公平性,具有重要的社会意义。
衍生相关工作
HICRIC数据集的发布催生了一系列相关研究和工作,特别是在健康保险领域的语言模型预训练和上诉结果预测方面。基于该数据集,研究者开发了多种上诉信件生成器和上诉结果预测模型,推动了自然语言处理技术在法律和医疗领域的应用。此外,HICRIC还为构建健康保险知识库提供了基础,促进了多源数据的整合与分析。这些衍生工作不仅提升了健康保险系统的效率,还为相关领域的学术研究提供了新的方向和方法。
以上内容由遇见数据集搜集并总结生成



