ArtifactAI/arxiv_s2orc_parsed

Name: ArtifactAI/arxiv_s2orc_parsed
Creator: ArtifactAI
Published: 2023-07-24 22:26:46
License: 暂无描述

Hugging Face2023-07-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ArtifactAI/arxiv_s2orc_parsed

下载链接

链接失效反馈

官方服务：

资源简介：

ArtifactAI/arxiv_s2orc_parsed是AllenAI S2ORC数据集的一个子集，专门过滤了ArXiv论文，并包含每篇论文的全文。数据集还提取了每篇论文中的Github链接，以帮助开发ArtifactAI/arxiv_python_research_code。数据集的每个实例对应一个文件，包含文本内容和其他元数据。数据集没有分割，所有数据默认加载为训练集。

提供机构：

ArtifactAI

原始信息汇总

数据集概述

名称: arxiv_s2orc_parsed

来源: 作为AllenAI S2ORC 数据集的子集，专注于ArXiv论文。

目的: 用于NLP和文本挖掘研究，特别是文本生成和零样本分类任务。

数据集特征

title (字符串序列): 论文标题列表。
author (字符串序列): 作者列表。
authoraffiliation (字符串序列): 作者机构隶属关系列表。
venue (字符串序列): 论文发表场所。
abstract (字符串): 论文摘要。
doi (字符串): 论文DOI。
pdfurls (字符串序列): 论文PDF链接列表。
corpusid (整数): 由s2orc定义的语料库ID。
arxivid (字符串): ArXiv论文ID。
pdfsha (字符串): 唯一PDF哈希。
text (字符串): ArXiv论文全文。
github_urls (字符串序列): 文本中引用的GitHub链接列表。

数据集结构

数据实例: 每个实例对应一篇论文，包含全文和元数据。
数据字段: 如上所述，包括标题、作者、机构、发表场所、摘要、DOI、PDF链接、语料库ID、ArXiv ID、PDF哈希和全文。

数据分割

训练集: 包含1671614个实例，总字节数为89132091867。
下载大小: 35993359504字节。
数据集大小: 89132091867字节。

语言

主要语言: 英语 (en)

数据集大小类别

大小范围: 10B<n<100B

使用方法

python from datasets import load_dataset

ds = load_dataset("ArtifactAI/arxiv_s2orc_parsed", split="train")

数据集流式加载

ds = load_dataset("ArtifactAI/arxiv_s2orc_parsed", streaming=True, split="train")

5,000+

优质数据集

54 个

任务类型

进入经典数据集