five

ArtifactAI/arxiv_s2orc_parsed

收藏
Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_s2orc_parsed
下载链接
链接失效反馈
官方服务:
资源简介:
ArtifactAI/arxiv_s2orc_parsed是AllenAI S2ORC数据集的一个子集,专门过滤了ArXiv论文,并包含每篇论文的全文。数据集还提取了每篇论文中的Github链接,以帮助开发ArtifactAI/arxiv_python_research_code。数据集的每个实例对应一个文件,包含文本内容和其他元数据。数据集没有分割,所有数据默认加载为训练集。

ArtifactAI/arxiv_s2orc_parsed是AllenAI S2ORC数据集的一个子集,专门过滤了ArXiv论文,并包含每篇论文的全文。数据集还提取了每篇论文中的Github链接,以帮助开发ArtifactAI/arxiv_python_research_code。数据集的每个实例对应一个文件,包含文本内容和其他元数据。数据集没有分割,所有数据默认加载为训练集。
提供机构:
ArtifactAI
原始信息汇总

数据集概述

名称: arxiv_s2orc_parsed

来源: 作为AllenAI S2ORC 数据集的子集,专注于ArXiv论文。

目的: 用于NLP和文本挖掘研究,特别是文本生成和零样本分类任务。

数据集特征

  • title (字符串序列): 论文标题列表。
  • author (字符串序列): 作者列表。
  • authoraffiliation (字符串序列): 作者机构隶属关系列表。
  • venue (字符串序列): 论文发表场所。
  • abstract (字符串): 论文摘要。
  • doi (字符串): 论文DOI。
  • pdfurls (字符串序列): 论文PDF链接列表。
  • corpusid (整数): 由s2orc定义的语料库ID。
  • arxivid (字符串): ArXiv论文ID。
  • pdfsha (字符串): 唯一PDF哈希。
  • text (字符串): ArXiv论文全文。
  • github_urls (字符串序列): 文本中引用的GitHub链接列表。

数据集结构

  • 数据实例: 每个实例对应一篇论文,包含全文和元数据。
  • 数据字段: 如上所述,包括标题、作者、机构、发表场所、摘要、DOI、PDF链接、语料库ID、ArXiv ID、PDF哈希和全文。

数据分割

  • 训练集: 包含1671614个实例,总字节数为89132091867。
  • 下载大小: 35993359504字节。
  • 数据集大小: 89132091867字节。

语言

  • 主要语言: 英语 (en)

数据集大小类别

  • 大小范围: 10B<n<100B

使用方法

python from datasets import load_dataset

ds = load_dataset("ArtifactAI/arxiv_s2orc_parsed", split="train")

数据集流式加载

ds = load_dataset("ArtifactAI/arxiv_s2orc_parsed", streaming=True, split="train")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作