xiaozeroone/pubmed_derived
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xiaozeroone/pubmed_derived
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自PubMed语料库的1k示例子集,以及各种重写版本。重写版本改变了原始文本的一个方面,并尽可能保持其他方面不变。数据集分为多个部分,包括pubmed、nonbiomedical、counterfactual、casual和rap,每个部分都有不同的文本修改方式。数据集的创建是通过ChatGPT生成的,具体生成方法可以参考相关论文。
该数据集包含来自PubMed语料库的1k示例子集,以及各种重写版本。重写版本改变了原始文本的一个方面,并尽可能保持其他方面不变。数据集分为多个部分,包括pubmed、nonbiomedical、counterfactual、casual和rap,每个部分都有不同的文本修改方式。数据集的创建是通过ChatGPT生成的,具体生成方法可以参考相关论文。
提供机构:
xiaozeroone
原始信息汇总
数据集概述
数据集配置
- 默认配置:
- 包含多个数据文件,分为以下几个部分:
pubmed:路径为data/pubmed-*nonbiomedical:路径为data/nonbiomedical-*counterfactual:路径为data/counterfactual-*casual:路径为data/casual-*rap:路径为data/rap-*
- 包含多个数据文件,分为以下几个部分:
数据集信息
-
特征:
PubmedData:ArticleIdList:包含ArticleId,类型为字符串序列PublicationStatus:类型为字符串History:包含PubMedPubDate,包含Year、Month、Day,类型均为int32ReferenceList:包含Citation和CitationId,类型分别为字符串和int32
text:类型为字符串
-
数据分割:
pubmed:1000个样本,1166668字节nonbiomedical:1000个样本,1141909字节counterfactual:991个样本,1179347字节casual:1000个样本,1205949字节rap:1000个样本,1252260字节
-
数据集大小:
- 下载大小:3357032字节
- 数据集大小:5946133字节
语言
- 英语(en)
数据集创建
- 文本由ChatGPT生成,具体生成指令参考相关论文。
引用信息
@inproceedings{ zhang2024dissecting, title={Dissecting learning and forgetting in language model finetuning}, author={Xiao Zhang and Ji Wu}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=tmsqb6WpLz} }



