five

morteza/cogtext

收藏
Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morteza/cogtext
下载链接
链接失效反馈
官方服务:
资源简介:
CogText数据集是一个从PubMed收集的关于认知任务和结构的摘要的精选集合。该数据集包含原始摘要及其对应的嵌入。数据集分为2021年和2023年两个版本,分别包含385,705和522,972篇科学文章。数据集的字段包括文章索引、PubMed ID、DOI、出版年份、期刊标题、期刊ISO缩写、文章标题、摘要、类别和标签等。数据集支持的任务包括主题建模和文本嵌入,语言为英语。
提供机构:
morteza
原始信息汇总

数据集概述

数据集名称: CogText PubMed Abstracts

许可证: cc-by-4.0

语言: 英语

多语言性: 单语种

任务类别: 文本分类

任务ID:

  • 主题分类
  • 语义相似性分类

大小类别: 100K<n<1M

源数据集类型: 原始

语言创建者: 发现、专家生成

数据集结构

数据实例: 522,972篇科学文章,其中385,705篇是唯一的。

数据字段:

  • index:文章在当前数据集中的索引(整数)
  • pmid:PubMed ID(整数)
  • doi:数字对象标识符(字符串)
  • year:出版年份(yyyy格式,整数)
  • journal_title:期刊标题(字符串)
  • journal_iso_abbreviation:期刊ISO缩写(字符串)
  • title:文章标题(字符串)
  • abstract:文章摘要(字符串)
  • category:文章类别,"CognitiveTask"或"CognitiveConstruct"(枚举)
  • label:文章标签,参考ontologies/efo.owl中的类别标签(枚举)
  • original_index:文章在完整数据集中的索引(整数)

数据分割:

  • pubmed/abstracts.csv.gz:完整数据集
  • pubmed/abstracts20pct.csv.gz:数据集的20%(按label分层的随机样本)
  • gpt3/abstracts_gp3ada.nc:整个数据集的GPT-3嵌入,以XArray/CDF4格式索引,按pmid索引

数据集创建

源数据: 原始

语言创建者: 发现、专家生成

配置:

  • abstracts (2023):数据文件为pubmed/abstracts2023.csv.gz
  • abstracts (2021):数据文件为pubmed/abstracts2021.csv.gz

标签:

  • Cognitive Control
  • PubMed
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作