allenai/peS2o|学术文本预训练数据集|多学科领域数据集

hugging_face2024-10-13 更新2024-03-04 收录

学术文本预训练

多学科领域

下载链接：

https://hf-mirror.com/datasets/allenai/peS2o

下载链接

链接失效反馈

资源简介：

peS2o数据集是一个包含约4000万篇开放获取学术论文的集合，经过清洗、过滤和格式化，用于语言模型的预训练。该数据集来源于Semantic Scholar Open Research Corpus (S2ORC)，并发布了多个版本，每个版本的处理和知识截止日期不同。文档格式包括添加日期、创建日期、文档ID、来源、文本内容和版本号等信息。

提供机构：

allenai

原始信息汇总

数据集概述

基本信息

名称: peS2o (Pretraining Efficiently on S2ORC)
许可证: ODC-By
任务类别:
- 文本生成
- 填空
语言: 英语
标签:
- 生物学
- 化学
- 工程学
- 计算机科学
- 物理学
- 材料科学
- 数学
- 心理学
- 经济学
- 政治科学
- 商业
- 地质学
- 社会学
- 地理学
- 环境科学
- 艺术
- 历史
- 哲学
大小范围: 10B<n<100B
源数据集: allenai/s2orc

数据集内容

描述: peS2o 数据集包含约40M篇创意开放获取学术论文，经过清洗、过滤和格式化，用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
版本: 提供多个版本，每个版本具有不同的处理和知识截止日期。建议使用最新版本。

文档格式

字段:
- added: 文档添加到语料库的日期。
- created: 文档首次发表的估计日期。
- id: 文档的Semantic Scholar Corpus ID。
- source: 文档来源，支持s2orc和s2ag两种。
- text: 文档文本，段落由两个换行符(`

`)分隔。

version: peS2o的版本。

peS2o V2 (最新版本)

关键事实

知识截止: 2023-01-03
文档数量: 38.97M
令牌数量: 42.01B

处理

新增过滤策略以排除来自可能包含OCR错误源的摘要。

统计数据

数据集	分割	文档数量	单词数量
s2orc	train	8,242,162	36,088,195,908
s2orc	valid	51,323	255,139,074
s2ag	train	30,569,017	5,920,099,207
s2ag	valid	109,709	24,029,459

peS2o V1

关键事实

知识截止: 2023-01-03
文档数量: 67.56M
令牌数量: 47.37B

处理

根据来源不同（s2orc或s2ag）处理略有差异。

统计数据

数据集	分割	文档数量	单词数量
s2orc	train	8,242,162	36,088,195,908
s2orc	valid	51,323	255,139,074
s2ag	train	59,382,301	11,009,123,378
s2ag	valid	111,228	24,398,512

AI搜集汇总

数据集介绍

构建方式

peS2o数据集源自Semantic Scholar开放研究语料库（S2ORC），经过精心清洗、筛选和格式化，专为语言模型的预训练而设计。该数据集包含约4000万篇开放获取的学术论文，涵盖了从生物学到哲学等多个学科领域。数据集的构建过程包括对论文的语言、内容和格式的严格筛选，确保每篇论文都符合预训练模型的高质量要求。

特点

peS2o数据集的特点在于其广泛覆盖的学科领域和高质量的文本内容。数据集不仅包含了大量的学术论文，还通过先进的自然语言处理技术对文本进行了优化，如去除OCR错误、筛选非英语内容等。此外，数据集还提供了详细的元数据，如论文的发布日期、来源和版本信息，为研究者提供了丰富的研究素材。

使用方法

使用peS2o数据集时，研究者可以通过Hugging Face平台直接访问和下载数据集。数据集中的每篇论文都以字典格式存储，包含文本、发布日期、来源等关键信息。研究者可以利用这些数据进行语言模型的预训练或微调，特别是在需要高质量学术文本支持的场景中。此外，数据集的版本更新和详细的统计信息也为研究者提供了灵活的选择和深入的分析基础。

背景与挑战

背景概述

peS2o数据集是由Allen Institute for AI于2023年发布的一个大规模学术论文数据集，旨在为语言模型的预训练提供高质量的文本资源。该数据集基于Semantic Scholar Open Research Corpus (S2ORC)，包含了约4000万篇开放获取的学术论文，涵盖了生物学、化学、工程学、计算机科学、物理学、材料科学、数学、心理学、经济学、政治学、商业、地质学、社会学、地理学、环境科学、艺术、历史和哲学等多个学科领域。peS2o的创建旨在解决学术文本预训练中的数据稀缺问题，并为自然语言处理领域的研究提供丰富的语料支持。该数据集的发布对推动跨学科的语言模型研究具有重要意义。

当前挑战

peS2o数据集在构建过程中面临多重挑战。首先，学术文本的多样性和复杂性使得数据清洗和格式标准化成为一项艰巨任务，尤其是处理OCR错误和非英语文本时。其次，数据过滤过程中需要平衡文本质量与数据量，确保保留的文本既具有代表性又符合预训练需求。此外，数据集的时效性也是一个关键问题，由于学术文献的快速更新，如何保持数据集的知识截止日期与最新研究进展同步是一个持续的挑战。最后，跨学科数据的整合与标注需要大量的领域专业知识，这对数据集的构建团队提出了较高的要求。

常用场景

经典使用场景

peS2o数据集广泛应用于自然语言处理领域，特别是在文本生成和掩码填充任务中。其庞大的学术论文集合为语言模型的预训练提供了丰富的语料库，使得模型能够更好地理解和生成学术文本。通过使用peS2o，研究人员能够在多个学科领域内进行高效的模型训练，从而提升模型在复杂学术语境下的表现。

实际应用

在实际应用中，peS2o数据集被广泛用于开发智能学术助手、自动文献摘要生成系统以及跨学科知识发现工具。通过利用peS2o中的丰富学术资源，这些应用能够更准确地理解和生成学术文本，从而帮助研究人员快速获取和整合跨学科知识，提升科研效率。

衍生相关工作

peS2o数据集衍生了许多经典的自然语言处理研究工作，特别是在学术文本生成和跨学科知识发现领域。例如，基于peS2o的预训练模型在多个学术文本生成任务中取得了显著的效果提升。此外，peS2o还被用于开发跨学科知识图谱，帮助研究人员发现不同学科之间的潜在联系，推动了跨学科研究的深入发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

AlphaFold Protein Structure Database

AlphaFold是由Google DeepMind开发的AI系统，可从氨基酸序列预测蛋白质的三维结构，其准确性媲美实验方法。Google DeepMind与欧洲生物信息学研究所（EMBL-EBI）合作创建了AlphaFold Protein Structure Database，免费向科学界开放，现已涵盖超过2亿条UniProt蛋白序列，包含人类及47种重要生物的蛋白质组。

alphafold.com 收录

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录

Other-Animals-10

该数据集包含103张图像，每张图像对应一个动物标签，标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集，用于训练模型。

huggingface 收录

中国区域250米植被覆盖度数据集（2000-2024）

该数据集是中国区域2000至2024年月度植被覆盖度产品，空间分辨率250米，合成方式采用月最大值合成，每年12期，共299期。本产品采用基于归一化植被指数（NDVI）像元二分模型，根据土地利用类型确定纯植被像元值和纯裸土像元值，实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中，NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集（2000-2024）产品。通过时空变化趋势分析检验法分析，该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。

国家青藏高原科学数据中心收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录