ArtifactAI/arxiv_s2orc_parsed
收藏Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_s2orc_parsed
下载链接
链接失效反馈官方服务:
资源简介:
ArtifactAI/arxiv_s2orc_parsed是AllenAI S2ORC数据集的一个子集,专门过滤了ArXiv论文,并包含每篇论文的全文。数据集还提取了每篇论文中的Github链接,以帮助开发ArtifactAI/arxiv_python_research_code。数据集的每个实例对应一个文件,包含文本内容和其他元数据。数据集没有分割,所有数据默认加载为训练集。
ArtifactAI/arxiv_s2orc_parsed是AllenAI S2ORC数据集的一个子集,专门过滤了ArXiv论文,并包含每篇论文的全文。数据集还提取了每篇论文中的Github链接,以帮助开发ArtifactAI/arxiv_python_research_code。数据集的每个实例对应一个文件,包含文本内容和其他元数据。数据集没有分割,所有数据默认加载为训练集。
提供机构:
ArtifactAI
原始信息汇总
数据集概述
名称: arxiv_s2orc_parsed
来源: 作为AllenAI S2ORC 数据集的子集,专注于ArXiv论文。
目的: 用于NLP和文本挖掘研究,特别是文本生成和零样本分类任务。
数据集特征
- title (字符串序列): 论文标题列表。
- author (字符串序列): 作者列表。
- authoraffiliation (字符串序列): 作者机构隶属关系列表。
- venue (字符串序列): 论文发表场所。
- abstract (字符串): 论文摘要。
- doi (字符串): 论文DOI。
- pdfurls (字符串序列): 论文PDF链接列表。
- corpusid (整数): 由s2orc定义的语料库ID。
- arxivid (字符串): ArXiv论文ID。
- pdfsha (字符串): 唯一PDF哈希。
- text (字符串): ArXiv论文全文。
- github_urls (字符串序列): 文本中引用的GitHub链接列表。
数据集结构
- 数据实例: 每个实例对应一篇论文,包含全文和元数据。
- 数据字段: 如上所述,包括标题、作者、机构、发表场所、摘要、DOI、PDF链接、语料库ID、ArXiv ID、PDF哈希和全文。
数据分割
- 训练集: 包含1671614个实例,总字节数为89132091867。
- 下载大小: 35993359504字节。
- 数据集大小: 89132091867字节。
语言
- 主要语言: 英语 (en)
数据集大小类别
- 大小范围: 10B<n<100B
使用方法
python from datasets import load_dataset
ds = load_dataset("ArtifactAI/arxiv_s2orc_parsed", split="train")
数据集流式加载
ds = load_dataset("ArtifactAI/arxiv_s2orc_parsed", streaming=True, split="train")



