laion/open-access-papers
收藏Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/laion/open-access-papers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文,涵盖不同学科的出版物。每个数据实例代表一篇学术论文,包含唯一标识符、URL、详细的元数据(如DOI、标题、作者、出版日期等)以及全文的路径(如果可用)。数据集的主要语言是英语,但也可能包含其他语言的论文。数据集以WebDataset格式提供,便于流式处理。
This dataset contains open access academic papers collected from CORE (core.ac.uk). It includes metadata and information about various academic publications across different disciplines. Each instance in the dataset represents an academic paper and contains a unique identifier, URL, detailed metadata (such as DOI, title, authors, publication date, etc.), and the path to the full text (if available). The dataset is primarily in English, but may contain papers in other languages as well. The dataset is provided in WebDataset format for easy streaming.
提供机构:
laion
原始信息汇总
CORE Open Access Paper Dataset
数据集描述
- 主页: CORE
- 存储库: Core Open Access Paper Dataset
- 联系人: [https://laion.ai/]
数据集概述
该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文。它包括跨不同学科的学术出版物的元数据和信息。
语言
数据集主要为英语,但也可能包含其他语言的论文。
数据集结构
数据实例
每个实例代表一篇学术论文,包含以下信息:
__key__: 论文的唯一标识符(例如,"000000000")__url__: 包含论文数据的shard文件的URLjson: 包含论文详细元数据的JSON字符串,包括:doi: 数字对象标识符coreId: CORE标识符oai: 开放档案倡议标识符title: 论文标题authors: 作者列表datePublished: 出版日期abstract: 论文摘要publisher: 出版商信息year: 出版年份topics: 论文涵盖的主题列表subjects: 学科类别urls: 相关URL
path: 包含全文(如果可用)的压缩文件路径
数据集创建
数据集理由
数据集采用可流式处理的WebDataset格式,便于数据集处理。
源数据
初始数据收集和规范化
数据集从CORE(core.ac.uk)获取,该平台聚合了来自全球存储库和期刊的开放获取研究成果。
源语言生产者
源语言生产者是已发表开放获取论文并被CORE索引的研究人员和学者。
个人和敏感信息
数据集包含学术论文的信息,包括作者姓名和所属机构。数据集用户应注意并尊重与论文相关的任何版权或使用限制。
使用数据集的注意事项
数据集的社会影响
该数据集可以通过提供跨学科的大量开放获取学术论文的便捷访问,潜在地加速研究。
偏见讨论
数据集可能反映学术出版中的偏见,例如语言偏见(偏向英语出版物)或基于CORE索引来源的地理偏见。
其他已知限制
数据集中论文的元数据完整性和质量可能有所不同。
附加信息
许可信息
数据集在MIT许可证下提供。
如何使用
数据集可以使用WebDataset读取。以下是加载数据的示例:
python import webdataset as wds
ds = wds.WebDataset("./data/shard-{000..123}.tar.gz")
这将加载从shard-000.tar.gz到shard-123.tar.gz的分片。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



