morteza/cogtext
收藏Hugging Face2023-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morteza/cogtext
下载链接
链接失效反馈官方服务:
资源简介:
CogText数据集是一个从PubMed收集的关于认知任务和结构的摘要的精选集合。该数据集包含原始摘要及其对应的嵌入。数据集分为2021年和2023年两个版本,分别包含385,705和522,972篇科学文章。数据集的字段包括文章索引、PubMed ID、DOI、出版年份、期刊标题、期刊ISO缩写、文章标题、摘要、类别和标签等。数据集支持的任务包括主题建模和文本嵌入,语言为英语。
提供机构:
morteza
原始信息汇总
数据集概述
数据集名称: CogText PubMed Abstracts
许可证: cc-by-4.0
语言: 英语
多语言性: 单语种
任务类别: 文本分类
任务ID:
- 主题分类
- 语义相似性分类
大小类别: 100K<n<1M
源数据集类型: 原始
语言创建者: 发现、专家生成
数据集结构
数据实例: 522,972篇科学文章,其中385,705篇是唯一的。
数据字段:
index:文章在当前数据集中的索引(整数)pmid:PubMed ID(整数)doi:数字对象标识符(字符串)year:出版年份(yyyy格式,整数)journal_title:期刊标题(字符串)journal_iso_abbreviation:期刊ISO缩写(字符串)title:文章标题(字符串)abstract:文章摘要(字符串)category:文章类别,"CognitiveTask"或"CognitiveConstruct"(枚举)label:文章标签,参考ontologies/efo.owl中的类别标签(枚举)original_index:文章在完整数据集中的索引(整数)
数据分割:
pubmed/abstracts.csv.gz:完整数据集pubmed/abstracts20pct.csv.gz:数据集的20%(按label分层的随机样本)gpt3/abstracts_gp3ada.nc:整个数据集的GPT-3嵌入,以XArray/CDF4格式索引,按pmid索引
数据集创建
源数据: 原始
语言创建者: 发现、专家生成
配置:
abstracts (2023):数据文件为pubmed/abstracts2023.csv.gzabstracts (2021):数据文件为pubmed/abstracts2021.csv.gz
标签:
- Cognitive Control
- PubMed



