xiaozeroone/pubmed_derived

Name: xiaozeroone/pubmed_derived
Creator: xiaozeroone
Published: 2024-02-15 03:30:02
License: 暂无描述

Hugging Face2024-02-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xiaozeroone/pubmed_derived

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自PubMed语料库的1k示例子集，以及各种重写版本。重写版本改变了原始文本的一个方面，并尽可能保持其他方面不变。数据集分为多个部分，包括pubmed、nonbiomedical、counterfactual、casual和rap，每个部分都有不同的文本修改方式。数据集的创建是通过ChatGPT生成的，具体生成方法可以参考相关论文。

提供机构：

xiaozeroone

原始信息汇总

数据集概述

数据集配置

默认配置：
- 包含多个数据文件，分为以下几个部分：
  - pubmed：路径为 data/pubmed-*
  - nonbiomedical：路径为 data/nonbiomedical-*
  - counterfactual：路径为 data/counterfactual-*
  - casual：路径为 data/casual-*
  - rap：路径为 data/rap-*

数据集信息

特征：
- PubmedData：
  - ArticleIdList：包含 ArticleId，类型为字符串序列
  - PublicationStatus：类型为字符串
  - History：包含 PubMedPubDate，包含 Year、Month、Day，类型均为 int32
  - ReferenceList：包含 Citation 和 CitationId，类型分别为字符串和 int32
- text：类型为字符串
数据分割：
- pubmed：1000个样本，1166668字节
- nonbiomedical：1000个样本，1141909字节
- counterfactual：991个样本，1179347字节
- casual：1000个样本，1205949字节
- rap：1000个样本，1252260字节
数据集大小：
- 下载大小：3357032字节
- 数据集大小：5946133字节

语言

英语（en）

数据集创建

文本由ChatGPT生成，具体生成指令参考相关论文。

引用信息

@inproceedings{ zhang2024dissecting, title={Dissecting learning and forgetting in language model finetuning}, author={Xiao Zhang and Ji Wu}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=tmsqb6WpLz} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集