dolma-pes2o-cc-pd

Name: dolma-pes2o-cc-pd
Creator: Allen Institute for AI
Published: 2024-11-24 14:25:26
License: 暂无描述

Hugging Face2024-11-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/allenai/dolma-pes2o-cc-pd

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含Creative Common和公共领域子集的开放获取论文数据集，来源于peS2o。数据集的截止日期是2024年10月6日，训练集包含截至2024年8月31日的论文。数据集包含训练集和验证集，分别有625万和3.9万篇文档。文档的许可证分布包括CC-BY、CC-BY-SA、CC0和公共领域。数据集涵盖了多个研究领域，如医学、生物学、环境科学等。

This is an open-access paper dataset containing Creative Commons and public domain subsets, sourced from peS2o. The dataset has a cutoff date of October 6, 2024, while the training set includes papers up to August 31, 2024. The dataset comprises a training set and a validation set, with 6.25 million and 39,000 documents respectively. The document license distribution includes CC-BY, CC-BY-SA, CC0, and public domain. The dataset covers multiple research fields such as medicine, biology, environmental science, etc.

提供机构：

Allen Institute for AI

创建时间：

2024-11-24

搜集汇总

数据集介绍

构建方式

Dolma PeS2o (Creative Commons & Public Domain subset) 数据集是基于开放获取论文的Creative Commons和公共领域子集构建而成。数据收集的截止日期为2024年10月6日，训练集包含截至2024年8月31日的论文。数据集通过Semantic Scholar确定论文的研究领域，涵盖了从医学到艺术等多个学科。数据集的构建过程严格遵循了开放获取和知识共享的原则，确保了数据的合法性和广泛适用性。

特点

该数据集的特点在于其广泛的学科覆盖和丰富的文档数量。训练集包含超过625万篇论文，验证集包含约3.9万篇论文。数据集中的文档涵盖了从医学、生物学到艺术、哲学等20多个研究领域。此外，数据集中的文档按照Creative Commons和公共领域的许可进行分类，确保了数据的开放性和可重用性。数据集的高质量和多样性使其成为跨学科研究的宝贵资源。

使用方法

Dolma PeS2o数据集的使用方法灵活多样，适用于多种自然语言处理和机器学习任务。用户可以通过Hugging Face平台轻松访问和下载数据集。数据集中的文档可以用于文本分类、信息检索、语义分析等任务。由于数据集涵盖了多个研究领域，用户还可以进行跨学科的研究和分析。使用该数据集时，用户应遵守Creative Commons和公共领域的许可协议，确保数据的合法使用和共享。

背景与挑战

背景概述

Dolma PeS2o数据集是AllenAI研究所于2024年发布的一个开放获取学术论文子集，专注于Creative Commons和公共领域的文献。该数据集涵盖了多个学科领域，包括医学、生物学、环境科学、工程学等，数据来源为peS2o项目，截止日期为2024年10月6日。通过Semantic Scholar的学科分类，数据集为研究人员提供了丰富的跨学科研究资源，推动了开放科学的发展。其核心研究问题在于如何高效利用开放获取的学术文献，促进知识共享与跨领域合作。

当前挑战

Dolma PeS2o数据集在解决开放获取学术文献的高效利用问题时，面临多重挑战。首先，数据集的构建需要处理海量的文献数据，确保其准确性和完整性，尤其是在跨学科分类和许可证识别方面。其次，由于文献来源多样，数据格式和质量的统一化处理成为一大难题。此外，如何在保护知识产权的同时，最大化开放获取文献的可用性，也是数据集构建过程中需要平衡的关键问题。这些挑战不仅影响数据集的构建效率，也对其在学术研究中的实际应用提出了更高的要求。

常用场景

经典使用场景

Dolma PeS2o数据集在学术研究中广泛应用于文本挖掘和自然语言处理任务。其庞大的文献库涵盖了医学、生物学、环境科学等多个领域，为研究人员提供了丰富的语料资源。通过该数据集，研究者能够进行大规模文本分析，探索不同学科领域的研究趋势和知识结构。

衍生相关工作

基于Dolma PeS2o数据集，研究者开发了多种学术工具和模型。例如，利用该数据集训练的文献分类模型能够自动识别论文的研究领域，提升学术数据库的管理效率。此外，该数据集还被用于构建跨学科知识图谱，为学术研究提供了新的视角和方法。

数据集最近研究