morteza/cogtext

Name: morteza/cogtext
Creator: morteza
Published: 2023-11-25 10:48:10
License: 暂无描述

Hugging Face2023-11-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/morteza/cogtext

下载链接

链接失效反馈

官方服务：

资源简介：

CogText数据集是一个从PubMed收集的关于认知任务和结构的摘要的精选集合。该数据集包含原始摘要及其对应的嵌入。数据集分为2021年和2023年两个版本，分别包含385,705和522,972篇科学文章。数据集的字段包括文章索引、PubMed ID、DOI、出版年份、期刊标题、期刊ISO缩写、文章标题、摘要、类别和标签等。数据集支持的任务包括主题建模和文本嵌入，语言为英语。

提供机构：

morteza

原始信息汇总

数据集概述

数据集名称： CogText PubMed Abstracts

许可证： cc-by-4.0

语言： 英语

多语言性： 单语种

任务类别： 文本分类

任务ID：

主题分类
语义相似性分类

大小类别： 100K<n<1M

源数据集类型： 原始

语言创建者： 发现、专家生成

数据集结构

数据实例： 522,972篇科学文章，其中385,705篇是唯一的。

数据字段：

index：文章在当前数据集中的索引（整数）
pmid：PubMed ID（整数）
doi：数字对象标识符（字符串）
year：出版年份（yyyy格式，整数）
journal_title：期刊标题（字符串）
journal_iso_abbreviation：期刊ISO缩写（字符串）
title：文章标题（字符串）
abstract：文章摘要（字符串）
category：文章类别，"CognitiveTask"或"CognitiveConstruct"（枚举）
label：文章标签，参考ontologies/efo.owl中的类别标签（枚举）
original_index：文章在完整数据集中的索引（整数）

数据分割：

pubmed/abstracts.csv.gz：完整数据集
pubmed/abstracts20pct.csv.gz：数据集的20%（按label分层的随机样本）
gpt3/abstracts_gp3ada.nc：整个数据集的GPT-3嵌入，以XArray/CDF4格式索引，按pmid索引

数据集创建

源数据： 原始

语言创建者： 发现、专家生成

配置：

abstracts (2023)：数据文件为pubmed/abstracts2023.csv.gz
abstracts (2021)：数据文件为pubmed/abstracts2021.csv.gz

标签：

Cognitive Control
PubMed

5,000+

优质数据集

54 个

任务类型

进入经典数据集