five

laion/open-access-papers|学术论文数据集|开放获取数据集

收藏
hugging_face2024-07-03 更新2024-07-06 收录
学术论文
开放获取
下载链接:
https://hf-mirror.com/datasets/laion/open-access-papers
下载链接
链接失效反馈
资源简介:
该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文,涵盖不同学科的出版物。每个数据实例代表一篇学术论文,包含唯一标识符、URL、详细的元数据(如DOI、标题、作者、出版日期等)以及全文的路径(如果可用)。数据集的主要语言是英语,但也可能包含其他语言的论文。数据集以WebDataset格式提供,便于流式处理。

This dataset contains open access academic papers collected from CORE (core.ac.uk). It includes metadata and information about various academic publications across different disciplines. Each instance in the dataset represents an academic paper and contains a unique identifier, URL, detailed metadata (such as DOI, title, authors, publication date, etc.), and the path to the full text (if available). The dataset is primarily in English, but may contain papers in other languages as well. The dataset is provided in WebDataset format for easy streaming.
提供机构:
laion
原始信息汇总

CORE Open Access Paper Dataset

数据集描述

数据集概述

该数据集包含从CORE(core.ac.uk)收集的开放获取学术论文。它包括跨不同学科的学术出版物的元数据和信息。

语言

数据集主要为英语,但也可能包含其他语言的论文。

数据集结构

数据实例

每个实例代表一篇学术论文,包含以下信息:

  • __key__: 论文的唯一标识符(例如,"000000000")
  • __url__: 包含论文数据的shard文件的URL
  • json: 包含论文详细元数据的JSON字符串,包括:
    • doi: 数字对象标识符
    • coreId: CORE标识符
    • oai: 开放档案倡议标识符
    • title: 论文标题
    • authors: 作者列表
    • datePublished: 出版日期
    • abstract: 论文摘要
    • publisher: 出版商信息
    • year: 出版年份
    • topics: 论文涵盖的主题列表
    • subjects: 学科类别
    • urls: 相关URL
  • path: 包含全文(如果可用)的压缩文件路径

数据集创建

数据集理由

数据集采用可流式处理的WebDataset格式,便于数据集处理。

源数据

初始数据收集和规范化

数据集从CORE(core.ac.uk)获取,该平台聚合了来自全球存储库和期刊的开放获取研究成果。

源语言生产者

源语言生产者是已发表开放获取论文并被CORE索引的研究人员和学者。

个人和敏感信息

数据集包含学术论文的信息,包括作者姓名和所属机构。数据集用户应注意并尊重与论文相关的任何版权或使用限制。

使用数据集的注意事项

数据集的社会影响

该数据集可以通过提供跨学科的大量开放获取学术论文的便捷访问,潜在地加速研究。

偏见讨论

数据集可能反映学术出版中的偏见,例如语言偏见(偏向英语出版物)或基于CORE索引来源的地理偏见。

其他已知限制

数据集中论文的元数据完整性和质量可能有所不同。

附加信息

许可信息

数据集在MIT许可证下提供。

如何使用

数据集可以使用WebDataset读取。以下是加载数据的示例:

python import webdataset as wds

ds = wds.WebDataset("./data/shard-{000..123}.tar.gz")

这将加载从shard-000.tar.gz到shard-123.tar.gz的分片。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像,每个类别有600张图像。这些类别被分为20个超类,每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录