five

allenai/peS2o|学术文本预训练数据集|多学科领域数据集

收藏
hugging_face2024-10-13 更新2024-03-04 收录
学术文本预训练
多学科领域
下载链接:
https://hf-mirror.com/datasets/allenai/peS2o
下载链接
链接失效反馈
资源简介:
peS2o数据集是一个包含约4000万篇开放获取学术论文的集合,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集来源于Semantic Scholar Open Research Corpus (S2ORC),并发布了多个版本,每个版本的处理和知识截止日期不同。文档格式包括添加日期、创建日期、文档ID、来源、文本内容和版本号等信息。
提供机构:
allenai
原始信息汇总

数据集概述

基本信息

  • 名称: peS2o (Pretraining Efficiently on S2ORC)
  • 许可证: ODC-By
  • 任务类别:
    • 文本生成
    • 填空
  • 语言: 英语
  • 标签:
    • 生物学
    • 化学
    • 工程学
    • 计算机科学
    • 物理学
    • 材料科学
    • 数学
    • 心理学
    • 经济学
    • 政治科学
    • 商业
    • 地质学
    • 社会学
    • 地理学
    • 环境科学
    • 艺术
    • 历史
    • 哲学
  • 大小范围: 10B<n<100B
  • 源数据集: allenai/s2orc

数据集内容

  • 描述: peS2o 数据集包含约40M篇创意开放获取学术论文,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
  • 版本: 提供多个版本,每个版本具有不同的处理和知识截止日期。建议使用最新版本。

文档格式

  • 字段:
    • added: 文档添加到语料库的日期。
    • created: 文档首次发表的估计日期。
    • id: 文档的Semantic Scholar Corpus ID。
    • source: 文档来源,支持s2orcs2ag两种。
    • text: 文档文本,段落由两个换行符(`

`)分隔。

  • version: peS2o的版本。

peS2o V2 (最新版本)

关键事实

  • 知识截止: 2023-01-03
  • 文档数量: 38.97M
  • 令牌数量: 42.01B

处理

  • 新增过滤策略以排除来自可能包含OCR错误源的摘要。

统计数据

数据集 分割 文档数量 单词数量
s2orc train 8,242,162 36,088,195,908
s2orc valid 51,323 255,139,074
s2ag train 30,569,017 5,920,099,207
s2ag valid 109,709 24,029,459

peS2o V1

关键事实

  • 知识截止: 2023-01-03
  • 文档数量: 67.56M
  • 令牌数量: 47.37B

处理

  • 根据来源不同(s2orcs2ag)处理略有差异。

统计数据

数据集 分割 文档数量 单词数量
s2orc train 8,242,162 36,088,195,908
s2orc valid 51,323 255,139,074
s2ag train 59,382,301 11,009,123,378
s2ag valid 111,228 24,398,512
AI搜集汇总
数据集介绍
main_image_url
构建方式
peS2o数据集源自Semantic Scholar开放研究语料库(S2ORC),经过精心清洗、筛选和格式化,专为语言模型的预训练而设计。该数据集包含约4000万篇开放获取的学术论文,涵盖了从生物学到哲学等多个学科领域。数据集的构建过程包括对论文的语言、内容和格式的严格筛选,确保每篇论文都符合预训练模型的高质量要求。
特点
peS2o数据集的特点在于其广泛覆盖的学科领域和高质量的文本内容。数据集不仅包含了大量的学术论文,还通过先进的自然语言处理技术对文本进行了优化,如去除OCR错误、筛选非英语内容等。此外,数据集还提供了详细的元数据,如论文的发布日期、来源和版本信息,为研究者提供了丰富的研究素材。
使用方法
使用peS2o数据集时,研究者可以通过Hugging Face平台直接访问和下载数据集。数据集中的每篇论文都以字典格式存储,包含文本、发布日期、来源等关键信息。研究者可以利用这些数据进行语言模型的预训练或微调,特别是在需要高质量学术文本支持的场景中。此外,数据集的版本更新和详细的统计信息也为研究者提供了灵活的选择和深入的分析基础。
背景与挑战
背景概述
peS2o数据集是由Allen Institute for AI于2023年发布的一个大规模学术论文数据集,旨在为语言模型的预训练提供高质量的文本资源。该数据集基于Semantic Scholar Open Research Corpus (S2ORC),包含了约4000万篇开放获取的学术论文,涵盖了生物学、化学、工程学、计算机科学、物理学、材料科学、数学、心理学、经济学、政治学、商业、地质学、社会学、地理学、环境科学、艺术、历史和哲学等多个学科领域。peS2o的创建旨在解决学术文本预训练中的数据稀缺问题,并为自然语言处理领域的研究提供丰富的语料支持。该数据集的发布对推动跨学科的语言模型研究具有重要意义。
当前挑战
peS2o数据集在构建过程中面临多重挑战。首先,学术文本的多样性和复杂性使得数据清洗和格式标准化成为一项艰巨任务,尤其是处理OCR错误和非英语文本时。其次,数据过滤过程中需要平衡文本质量与数据量,确保保留的文本既具有代表性又符合预训练需求。此外,数据集的时效性也是一个关键问题,由于学术文献的快速更新,如何保持数据集的知识截止日期与最新研究进展同步是一个持续的挑战。最后,跨学科数据的整合与标注需要大量的领域专业知识,这对数据集的构建团队提出了较高的要求。
常用场景
经典使用场景
peS2o数据集广泛应用于自然语言处理领域,特别是在文本生成和掩码填充任务中。其庞大的学术论文集合为语言模型的预训练提供了丰富的语料库,使得模型能够更好地理解和生成学术文本。通过使用peS2o,研究人员能够在多个学科领域内进行高效的模型训练,从而提升模型在复杂学术语境下的表现。
实际应用
在实际应用中,peS2o数据集被广泛用于开发智能学术助手、自动文献摘要生成系统以及跨学科知识发现工具。通过利用peS2o中的丰富学术资源,这些应用能够更准确地理解和生成学术文本,从而帮助研究人员快速获取和整合跨学科知识,提升科研效率。
衍生相关工作
peS2o数据集衍生了许多经典的自然语言处理研究工作,特别是在学术文本生成和跨学科知识发现领域。例如,基于peS2o的预训练模型在多个学术文本生成任务中取得了显著的效果提升。此外,peS2o还被用于开发跨学科知识图谱,帮助研究人员发现不同学科之间的潜在联系,推动了跨学科研究的深入发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

PoLaRIS Dataset

PoLaRIS数据集是由仁荷大学电气与计算机工程系创建的一个用于海上目标检测和跟踪的多模态数据集,基于Pohang Canal数据集。该数据集包含约36万张图像和19万条标注,涵盖了从大到小的多尺度对象标注,特别适用于海上无人船(USV)的安全导航。数据集通过多模态传感器(如RGB、TIR、LiDAR和Radar)获取数据,并提供了详细的障碍物检测和跟踪的地面真实数据。创建过程中采用了半自动标注方法,确保了标注的准确性和效率。该数据集主要应用于复杂海上环境中的自主导航系统,旨在提高海上无人船的障碍物检测和跟踪能力,从而提升海上安全。

arXiv 收录

MoPho-Det

用于从监控视角检测手机使用行为的数据集。包含22,879张图像和39,534个标注,其中头部标注29,279个,手机标注10,255个,扩展分类任务标注4,079个。数据集经过清洗和校正,具有高质量的头部标注,适用于精确检测用户手机行为和支持基于距离的难样本挖掘。

github 收录

PHEME Dataset

PHEME dataset for Rumour Detection and Veracity Classification

kaggle 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录