five

laion/open-access-papers

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/laion/open-access-papers
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文,涵盖不同学科的出版物。每个数据实例代表一篇学术论文,包含唯一标识符、URL、详细的元数据(如DOI、标题、作者、出版日期等)以及全文的路径(如果可用)。数据集的主要语言是英语,但也可能包含其他语言的论文。数据集以WebDataset格式提供,便于流式处理。

This dataset contains open access academic papers collected from CORE (core.ac.uk). It includes metadata and information about various academic publications across different disciplines. Each instance in the dataset represents an academic paper and contains a unique identifier, URL, detailed metadata (such as DOI, title, authors, publication date, etc.), and the path to the full text (if available). The dataset is primarily in English, but may contain papers in other languages as well. The dataset is provided in WebDataset format for easy streaming.
提供机构:
laion
原始信息汇总

CORE Open Access Paper Dataset

数据集描述

数据集概述

该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文。它包括跨不同学科的学术出版物的元数据和信息。

语言

数据集主要为英语,但也可能包含其他语言的论文。

数据集结构

数据实例

每个实例代表一篇学术论文,包含以下信息:

  • __key__: 论文的唯一标识符(例如,"000000000")
  • __url__: 包含论文数据的shard文件的URL
  • json: 包含论文详细元数据的JSON字符串,包括:
    • doi: 数字对象标识符
    • coreId: CORE标识符
    • oai: 开放档案倡议标识符
    • title: 论文标题
    • authors: 作者列表
    • datePublished: 出版日期
    • abstract: 论文摘要
    • publisher: 出版商信息
    • year: 出版年份
    • topics: 论文涵盖的主题列表
    • subjects: 学科类别
    • urls: 相关URL
  • path: 包含全文(如果可用)的压缩文件路径

数据集创建

数据集理由

数据集采用可流式处理的WebDataset格式,便于数据集处理。

源数据

初始数据收集和规范化

数据集从CORE(core.ac.uk)获取,该平台聚合了来自全球存储库和期刊的开放获取研究成果。

源语言生产者

源语言生产者是已发表开放获取论文并被CORE索引的研究人员和学者。

个人和敏感信息

数据集包含学术论文的信息,包括作者姓名和所属机构。数据集用户应注意并尊重与论文相关的任何版权或使用限制。

使用数据集的注意事项

数据集的社会影响

该数据集可以通过提供跨学科的大量开放获取学术论文的便捷访问,潜在地加速研究。

偏见讨论

数据集可能反映学术出版中的偏见,例如语言偏见(偏向英语出版物)或基于CORE索引来源的地理偏见。

其他已知限制

数据集中论文的元数据完整性和质量可能有所不同。

附加信息

许可信息

数据集在MIT许可证下提供。

如何使用

数据集可以使用WebDataset读取。以下是加载数据的示例:

python import webdataset as wds

ds = wds.WebDataset("./data/shard-{000..123}.tar.gz")

这将加载从shard-000.tar.gz到shard-123.tar.gz的分片。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作