five

xiaozeroone/pubmed_derived

收藏
Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xiaozeroone/pubmed_derived
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自PubMed语料库的1k示例子集,以及各种重写版本。重写版本改变了原始文本的一个方面,并尽可能保持其他方面不变。数据集分为多个部分,包括pubmed、nonbiomedical、counterfactual、casual和rap,每个部分都有不同的文本修改方式。数据集的创建是通过ChatGPT生成的,具体生成方法可以参考相关论文。

该数据集包含来自PubMed语料库的1k示例子集,以及各种重写版本。重写版本改变了原始文本的一个方面,并尽可能保持其他方面不变。数据集分为多个部分,包括pubmed、nonbiomedical、counterfactual、casual和rap,每个部分都有不同的文本修改方式。数据集的创建是通过ChatGPT生成的,具体生成方法可以参考相关论文。
提供机构:
xiaozeroone
原始信息汇总

数据集概述

数据集配置

  • 默认配置
    • 包含多个数据文件,分为以下几个部分:
      • pubmed:路径为 data/pubmed-*
      • nonbiomedical:路径为 data/nonbiomedical-*
      • counterfactual:路径为 data/counterfactual-*
      • casual:路径为 data/casual-*
      • rap:路径为 data/rap-*

数据集信息

  • 特征

    • PubmedData
      • ArticleIdList:包含 ArticleId,类型为字符串序列
      • PublicationStatus:类型为字符串
      • History:包含 PubMedPubDate,包含 YearMonthDay,类型均为 int32
      • ReferenceList:包含 CitationCitationId,类型分别为字符串和 int32
    • text:类型为字符串
  • 数据分割

    • pubmed:1000个样本,1166668字节
    • nonbiomedical:1000个样本,1141909字节
    • counterfactual:991个样本,1179347字节
    • casual:1000个样本,1205949字节
    • rap:1000个样本,1252260字节
  • 数据集大小

    • 下载大小:3357032字节
    • 数据集大小:5946133字节

语言

  • 英语(en)

数据集创建

  • 文本由ChatGPT生成,具体生成指令参考相关论文。

引用信息

@inproceedings{ zhang2024dissecting, title={Dissecting learning and forgetting in language model finetuning}, author={Xiao Zhang and Ji Wu}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=tmsqb6WpLz} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作