clu-ling/clupubhealth
收藏Hugging Face2023-08-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clu-ling/clupubhealth
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- summarization
language:
- en
tags:
- medical
size_categories:
- 1K<n<10K
- 10K<n<100K
---
# `clupubhealth`
The `CLUPubhealth` dataset is based on the [PUBHEALTH fact-checking dataset](https://github.com/neemakot/Health-Fact-Checking).
The PUBHEALTH dataset contains claims, explanations, and main texts. The explanations function as vetted summaries of the main texts. The CLUPubhealth dataset repurposes these fields into summaries and texts for use in training Summarization models such as Facebook's BART.
There are currently 4 dataset configs which can be called, each has three splits (see Usage):
### `clupubhealth/mini`
This config includes only 200 samples per split. This is mostly used in testing scripts when small sets are desirable.
### `clupubhealth/base`
This is the base dataset which includes the full PUBHEALTH set, sans False samples. The `test` split is a shortened version which includes only 200 samples. This allows for faster eval steps during trianing.
### `clupubhealth/expanded`
Where the base `train` split contains 5,078 data points, this expanded set includes 62,163 data points. ChatGPT was used to generate new versions of the summaries in the base set. After GPT expansion a total of 72,498 were generated, however, this was shortened to ~62k after samples with poor BERTScores were eliminated.
### `clupubhealth/test`
This config has the full `test` split with ~1200 samples. Used for post-training evaluation.
## USAGE
To use the CLUPubhealth dataset use the `datasets` library:
```python
from datasets import load_dataset
data = load_dataset("clu-ling/clupubhealth", "base")
# Where the accepted extensions are the configs: `mini`, `base`, `expanded`, `test`
```
许可证: apache-2.0
任务类别:
- 摘要生成
语言:
- 英语
标签:
- 医疗
样本规模类别:
- 1千<样本数<10千
- 10千<样本数<100千
# `CLUPubhealth` 数据集
本`CLUPubhealth`数据集基于[PUBHEALTH事实核查数据集](https://github.com/neemakot/Health-Fact-Checking)构建。
PUBHEALTH数据集包含声明、解释文本与原始正文,其中解释文本为经过审核的原始正文摘要。CLUPubhealth数据集将这些字段重新适配为摘要与正文对,用于训练摘要生成模型(如Facebook的BART模型)。
当前该数据集提供4种可调用的配置,每种配置均包含三组分集(详见"使用方法"章节):
### `clupubhealth/mini` 迷你配置
该配置的每个分块仅包含200条样本,多用于需要小规模数据集的测试脚本开发。
### `clupubhealth/base` 基础配置
该配置为基础数据集,包含完整的PUBHEALTH数据集,但剔除了标注为"False(虚假)"的样本。其`test`分块为精简版本,仅包含200条样本,可在训练阶段加速评估流程。
### `clupubhealth/expanded` 扩展配置
基础配置的`train`分块包含5078条样本,而本扩展配置的样本量达62163条。我们使用ChatGPT生成了基础配置中摘要的全新版本:经GPT扩增后共生成72498条样本,但剔除了BERTScore评分较低的样本后,最终样本量精简至约62000条。
### `clupubhealth/test` 测试配置
该配置包含完整的`test`分块,约含1200条样本,用于训练后的模型评估。
## 使用方法
若要使用CLUPubhealth数据集,请使用`datasets`库:
python
from datasets import load_dataset
data = load_dataset("clu-ling/clupubhealth", "base")
# 支持的配置参数为:`mini`、`base`、`expanded`、`test`
提供机构:
clu-ling
原始信息汇总
clupubhealth 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别: 摘要生成
- 语言: 英语
- 标签: 医疗
- 大小类别:
- 1K<n<10K
- 10K<n<100K
数据集描述
CLUPubhealth 数据集是基于 PUBHEALTH 事实核查数据集 构建的。该数据集包含声明、解释和主要文本,其中解释作为主要文本的验证摘要。CLUPubhealth 数据集将这些字段重新用作摘要和文本,用于训练如 Facebook 的 BART 等摘要生成模型。
数据集配置
clupubhealth/mini: 每个分割包含200个样本,主要用于测试脚本。clupubhealth/base: 包含完整的 PUBHEALTH 数据集(不含错误样本),其中test分割包含200个样本,用于训练过程中的快速评估。clupubhealth/expanded: 基础train分割包含5,078个数据点,扩展集包含62,163个数据点。使用 ChatGPT 生成基础集摘要的新版本,最终生成约72,498个样本,经过 BERTScores 筛选后缩减至约62k。clupubhealth/test: 包含完整的test分割,约1200个样本,用于训练后评估。
使用方法
使用 datasets 库加载数据集,例如:
python
from datasets import load_dataset
data = load_dataset("clu-ling/clupubhealth", "base")
其中接受的扩展名为数据集配置:mini, base, expanded, test。
搜集汇总
数据集介绍

背景与挑战
背景概述
CLUPubhealth数据集是基于PUBHEALTH事实核查数据构建的摘要生成训练集,提供四种不同规模的配置(包括ChatGPT扩展版本),专注于医疗领域英文文本,适用于模型开发和测试。
以上内容由遇见数据集搜集并总结生成



