allenai/peS2o

Name: allenai/peS2o
Creator: allenai
Published: 2024-10-13 02:53:05
License: 暂无描述

Hugging Face2024-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/peS2o

下载链接

链接失效反馈

官方服务：

资源简介：

peS2o数据集是一个包含约4000万篇开放获取学术论文的集合，经过清洗、过滤和格式化，用于语言模型的预训练。该数据集来源于Semantic Scholar Open Research Corpus (S2ORC)，并发布了多个版本，每个版本的处理和知识截止日期不同。文档格式包括添加日期、创建日期、文档ID、来源、文本内容和版本号等信息。

The peS2o dataset is a collection of approximately 40 million open access academic papers that has been cleaned, filtered, and formatted for language model pretraining. Derived from the Semantic Scholar Open Research Corpus (S2ORC), this dataset has been released in multiple versions, with each version featuring distinct processing workflows and knowledge cutoff dates. Each document contains metadata fields including addition date, creation date, document ID, source, text content, and version number.

提供机构：

allenai

原始信息汇总

数据集概述

基本信息

名称: peS2o (Pretraining Efficiently on S2ORC)
许可证: ODC-By
任务类别:
- 文本生成
- 填空
语言: 英语
标签:
- 生物学
- 化学
- 工程学
- 计算机科学
- 物理学
- 材料科学
- 数学
- 心理学
- 经济学
- 政治科学
- 商业
- 地质学
- 社会学
- 地理学
- 环境科学
- 艺术
- 历史
- 哲学
大小范围: 10B<n<100B
源数据集: allenai/s2orc

数据集内容

描述: peS2o 数据集包含约40M篇创意开放获取学术论文，经过清洗、过滤和格式化，用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
版本: 提供多个版本，每个版本具有不同的处理和知识截止日期。建议使用最新版本。

文档格式

字段:
- added: 文档添加到语料库的日期。
- created: 文档首次发表的估计日期。
- id: 文档的Semantic Scholar Corpus ID。
- source: 文档来源，支持s2orc和s2ag两种。
- text: 文档文本，段落由两个换行符(`

`)分隔。

version: peS2o的版本。

peS2o V2 (最新版本)

关键事实

知识截止: 2023-01-03
文档数量: 38.97M
令牌数量: 42.01B

处理

新增过滤策略以排除来自可能包含OCR错误源的摘要。

统计数据

数据集	分割	文档数量	单词数量
s2orc	train	8,242,162	36,088,195,908
s2orc	valid	51,323	255,139,074
s2ag	train	30,569,017	5,920,099,207
s2ag	valid	109,709	24,029,459

peS2o V1

关键事实

知识截止: 2023-01-03
文档数量: 67.56M
令牌数量: 47.37B

处理

根据来源不同（s2orc或s2ag）处理略有差异。

统计数据

数据集	分割	文档数量	单词数量
s2orc	train	8,242,162	36,088,195,908
s2orc	valid	51,323	255,139,074
s2ag	train	59,382,301	11,009,123,378
s2ag	valid	111,228	24,398,512

搜集汇总

数据集介绍

构建方式

peS2o数据集源自Semantic Scholar开放研究语料库（S2ORC），经过精心清洗、筛选和格式化，专为语言模型的预训练而设计。该数据集包含约4000万篇开放获取的学术论文，涵盖了从生物学到哲学等多个学科领域。数据集的构建过程包括对论文的语言、内容和格式的严格筛选，确保每篇论文都符合预训练模型的高质量要求。

特点

peS2o数据集的特点在于其广泛覆盖的学科领域和高质量的文本内容。数据集不仅包含了大量的学术论文，还通过先进的自然语言处理技术对文本进行了优化，如去除OCR错误、筛选非英语内容等。此外，数据集还提供了详细的元数据，如论文的发布日期、来源和版本信息，为研究者提供了丰富的研究素材。

使用方法

使用peS2o数据集时，研究者可以通过Hugging Face平台直接访问和下载数据集。数据集中的每篇论文都以字典格式存储，包含文本、发布日期、来源等关键信息。研究者可以利用这些数据进行语言模型的预训练或微调，特别是在需要高质量学术文本支持的场景中。此外，数据集的版本更新和详细的统计信息也为研究者提供了灵活的选择和深入的分析基础。

背景与挑战

背景概述

peS2o数据集是由Allen Institute for AI于2023年发布的一个大规模学术论文数据集，旨在为语言模型的预训练提供高质量的文本资源。该数据集基于Semantic Scholar Open Research Corpus (S2ORC)，包含了约4000万篇开放获取的学术论文，涵盖了生物学、化学、工程学、计算机科学、物理学、材料科学、数学、心理学、经济学、政治学、商业、地质学、社会学、地理学、环境科学、艺术、历史和哲学等多个学科领域。peS2o的创建旨在解决学术文本预训练中的数据稀缺问题，并为自然语言处理领域的研究提供丰富的语料支持。该数据集的发布对推动跨学科的语言模型研究具有重要意义。

当前挑战

peS2o数据集在构建过程中面临多重挑战。首先，学术文本的多样性和复杂性使得数据清洗和格式标准化成为一项艰巨任务，尤其是处理OCR错误和非英语文本时。其次，数据过滤过程中需要平衡文本质量与数据量，确保保留的文本既具有代表性又符合预训练需求。此外，数据集的时效性也是一个关键问题，由于学术文献的快速更新，如何保持数据集的知识截止日期与最新研究进展同步是一个持续的挑战。最后，跨学科数据的整合与标注需要大量的领域专业知识，这对数据集的构建团队提出了较高的要求。

常用场景

经典使用场景

peS2o数据集广泛应用于自然语言处理领域，特别是在文本生成和掩码填充任务中。其庞大的学术论文集合为语言模型的预训练提供了丰富的语料库，使得模型能够更好地理解和生成学术文本。通过使用peS2o，研究人员能够在多个学科领域内进行高效的模型训练，从而提升模型在复杂学术语境下的表现。

实际应用

在实际应用中，peS2o数据集被广泛用于开发智能学术助手、自动文献摘要生成系统以及跨学科知识发现工具。通过利用peS2o中的丰富学术资源，这些应用能够更准确地理解和生成学术文本，从而帮助研究人员快速获取和整合跨学科知识，提升科研效率。

衍生相关工作

peS2o数据集衍生了许多经典的自然语言处理研究工作，特别是在学术文本生成和跨学科知识发现领域。例如，基于peS2o的预训练模型在多个学术文本生成任务中取得了显著的效果提升。此外，peS2o还被用于开发跨学科知识图谱，帮助研究人员发现不同学科之间的潜在联系，推动了跨学科研究的深入发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集