hicric

Hugging Face2024-12-15 更新2024-12-16 收录

下载链接：

https://huggingface.co/datasets/Persius/hicric

下载链接

链接失效反馈

官方服务：

资源简介：

HICRIC数据集是一个未标注的文本集合，旨在支持需要理解美国健康保险覆盖规则的应用。该数据集包含与法律、保险合同和医学相关的权威和非权威文本。数据集适用于语言模型的预训练，并可作为检索管道中的独立知识库使用。每个文档都带有特定的分类标签和额外的'kb'标签，用于指示文档是否适合用作知识库。数据集还讨论了与之相关的风险和限制，以及重新分发指南和联系信息。

The HICRIC Dataset is an unannotated text collection designed to support applications that require understanding of United States health insurance coverage rules. This dataset contains both authoritative and non-authoritative texts related to law, insurance contracts, and medicine. It is suitable for pre-training language models and can also serve as an independent knowledge base within retrieval pipelines. Each document is equipped with a specific classification tag and an additional 'kb' tag, which is used to indicate whether the document is suitable for use as a knowledge base. The dataset also covers the associated risks and limitations, as well as redistribution guidelines and contact information.

创建时间：

2024-12-09

原始信息汇总

HICRIC 数据集概述

数据集简介

HICRIC（Health Insurance Coverage Rules Interpretation Corpus）是一个用于支持理解美国健康保险覆盖规则的非标注文本集合。该数据集包含与法律、保险合同和医学相关的权威和非权威文本，旨在用于语言模型的预训练以及作为检索管道的独立知识库。

数据集配置

数据集包含以下配置：

case-description
clinical-guidelines
contract-coverage-rule-medical-policy
legal
opinion-policy-summary
regulatory-guidance

每个配置包含训练集（train），具体信息如下：

case-description

特征:
- text: string
- tags: sequence of string
- date_accessed: string
- source_url: string
- source_md5: string
- relative_path: string
- decision: string
- appeal_type: string
训练集:
- 字节数: 1694360988
- 样本数: 990065
下载大小: 402963667
数据集大小: 1694360988

clinical-guidelines

特征:
- text: string
- tags: sequence of string
- date_accessed: string
- source_url: string
- source_md5: string
- relative_path: string
训练集:
- 字节数: 562276777
- 样本数: 40110
下载大小: 266629038
数据集大小: 562276777

contract-coverage-rule-medical-policy

特征:
- text: string
- tags: sequence of string
- date_accessed: string
- source_url: string
- source_md5: string
- relative_path: string
训练集:
- 字节数: 30225716
- 样本数: 3661
下载大小: 12426008
数据集大小: 30225716

legal

特征:
- text: string
- tags: sequence of string
- date_accessed: string
- source_url: string
- source_md5: string
- relative_path: string
训练集:
- 字节数: 596329842
- 样本数: 1348
下载大小: 238155541
数据集大小: 596329842

opinion-policy-summary

特征:
- text: string
- tags: sequence of string
- date_accessed: string
- source_url: string
- source_md5: string
- relative_path: string
训练集:
- 字节数: 131693040
- 样本数: 2081
下载大小: 62275853
数据集大小: 131693040

regulatory-guidance

特征:
- text: string
- tags: sequence of string
- date_accessed: string
- source_url: string
- source_md5: string
- relative_path: string
训练集:
- 字节数: 38848315
- 样本数: 1110
下载大小: 17339277
数据集大小: 38848315

数据集标签

数据集中的文档带有以下标签：

legal
regulatory-guidance
contract-coverage-rule-medical-policy
opinion-policy-summary
case-description
clinical-guidelines

此外，还有一个特殊标签：

kb: 表示文档适合用于知识库。

数据集统计

类别	文档数量	单词数	字符数	大小 (GB)
所有分区部分	8,310	417,617,646	2,699,256,987	2.81
kb	1,434	170,717,368	1,120,961,295	1.13
legal	335	92,357,802	596,044,008	0.60
regulatory-guidance	1,110	5,536,585	38,607,587	0.04
contract-coverage-rule-medical-policy	7	196,156,813	1,228,184,524	1.31
opinion-policy-summary	2,094	19,462,399	133,049,956	0.14
case-description	2,629	214,267,074	1,351,074,791	1.45
clinical-guidelines	2,150	81,955,020	553,041,990	0.56

许可证

数据集使用 CC-BY-SA-4.0 许可证。

联系方式

如有问题或评论，请联系 info@persius.org。

搜集汇总

数据集介绍

构建方式

HICRIC数据集的构建基于对美国健康保险覆盖规则的理解需求，汇集了权威与非权威文本，涵盖法律、保险合同及医学领域。数据集通过特定的分区标签对文档进行分类，确保每个文档与单一标签关联，且标签集无冗余。此外，引入‘kb’标签以标识适合用作知识库的文档，确保其来源的权威性与定义性。

特点

HICRIC数据集的显著特点在于其多样的文本来源和精细的标签体系。数据集不仅包含法律、监管指南、合同覆盖规则等权威文本，还涵盖了案例描述和临床指南等非权威内容。通过分区标签和‘kb’标签的双重分类，数据集在支持语言模型预训练的同时，也为检索管道提供了独立的知识库资源。

使用方法

HICRIC数据集适用于多种应用场景，主要用于预训练语言模型以理解健康保险覆盖规则，同时也可作为独立的知识库在检索管道中使用。用户可根据文档的分区标签和‘kb’标签进行筛选，以满足特定需求。数据集的灵活性和多样性使其在法律、医学和保险等多个领域具有广泛的应用潜力。

背景与挑战

背景概述

HICRIC（Health Insurance Coverage Rules Interpretation Corpus）数据集是一个专门为支持对美国健康保险覆盖规则理解的应用而构建的未标注文本集合。该数据集由权威和非权威文本组成，涵盖法律、保险合同和医学等多个领域，旨在用于预训练语言模型以及作为独立的知识库在检索管道中使用。HICRIC的创建旨在填补健康保险领域中对复杂规则理解的空白，特别是在自动化处理和解释这些规则的需求日益增长的背景下。该数据集的构建和发布由TPAFS团队主导，其核心研究问题是如何有效利用大规模文本数据来提升健康保险相关任务的自动化水平。

当前挑战

HICRIC数据集在构建过程中面临多项挑战。首先，数据集的多样性和复杂性使得标注和分类任务变得异常困难，尤其是在处理法律和医学领域的专业术语时。其次，数据集的规模和来源多样性带来了潜在的偏见和误用风险，如何有效识别和缓解这些风险成为一大难题。此外，数据集的简单性可能限制其在复杂任务中的表现，尤其是在需要深度理解和推理的场景中。最后，数据集的构建过程中还涉及到对权威性和非权威性文本的区分，这需要对来源进行严格的评估和筛选。

常用场景

经典使用场景

HICRIC数据集的经典使用场景主要集中在健康保险覆盖规则的理解与解释领域。该数据集通过收集与法律、保险合同、医疗政策相关的文本，为预训练语言模型提供了丰富的语料资源。研究者可以利用这些文本进行模型训练，以提升其在健康保险相关任务中的表现，如保险条款的自动解析、政策摘要的生成以及法律文本的分类等。

实际应用

在实际应用中，HICRIC数据集可用于开发智能保险系统，帮助保险公司和政策制定者更高效地理解和执行健康保险规则。例如，保险公司可以利用该数据集训练的模型自动解析复杂的保险合同，减少人工干预和错误率。此外，政府机构和医疗机构也可以利用该数据集进行政策解读和监管指南的自动化处理，从而提高决策的科学性和透明度。

衍生相关工作

HICRIC数据集的发布催生了一系列相关研究工作，尤其是在健康保险领域的自然语言处理应用中。研究者们基于该数据集开发了多种模型，用于保险条款的自动解析、政策摘要的生成以及法律文本的分类。此外，该数据集还为健康保险领域的知识图谱构建提供了基础，推动了智能问答系统和决策支持系统的研发。这些衍生工作不仅丰富了健康保险领域的研究内容，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集