five

allenai/peS2o|学术文本预训练数据集|多学科领域数据集

收藏
hugging_face2024-10-13 更新2024-03-04 收录
学术文本预训练
多学科领域
下载链接:
https://hf-mirror.com/datasets/allenai/peS2o
下载链接
链接失效反馈
资源简介:
peS2o数据集是一个包含约4000万篇开放获取学术论文的集合,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集来源于Semantic Scholar Open Research Corpus (S2ORC),并发布了多个版本,每个版本的处理和知识截止日期不同。文档格式包括添加日期、创建日期、文档ID、来源、文本内容和版本号等信息。
提供机构:
allenai
原始信息汇总

数据集概述

基本信息

  • 名称: peS2o (Pretraining Efficiently on S2ORC)
  • 许可证: ODC-By
  • 任务类别:
    • 文本生成
    • 填空
  • 语言: 英语
  • 标签:
    • 生物学
    • 化学
    • 工程学
    • 计算机科学
    • 物理学
    • 材料科学
    • 数学
    • 心理学
    • 经济学
    • 政治科学
    • 商业
    • 地质学
    • 社会学
    • 地理学
    • 环境科学
    • 艺术
    • 历史
    • 哲学
  • 大小范围: 10B<n<100B
  • 源数据集: allenai/s2orc

数据集内容

  • 描述: peS2o 数据集包含约40M篇创意开放获取学术论文,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
  • 版本: 提供多个版本,每个版本具有不同的处理和知识截止日期。建议使用最新版本。

文档格式

  • 字段:
    • added: 文档添加到语料库的日期。
    • created: 文档首次发表的估计日期。
    • id: 文档的Semantic Scholar Corpus ID。
    • source: 文档来源,支持s2orcs2ag两种。
    • text: 文档文本,段落由两个换行符(`

`)分隔。

  • version: peS2o的版本。

peS2o V2 (最新版本)

关键事实

  • 知识截止: 2023-01-03
  • 文档数量: 38.97M
  • 令牌数量: 42.01B

处理

  • 新增过滤策略以排除来自可能包含OCR错误源的摘要。

统计数据

数据集 分割 文档数量 单词数量
s2orc train 8,242,162 36,088,195,908
s2orc valid 51,323 255,139,074
s2ag train 30,569,017 5,920,099,207
s2ag valid 109,709 24,029,459

peS2o V1

关键事实

  • 知识截止: 2023-01-03
  • 文档数量: 67.56M
  • 令牌数量: 47.37B

处理

  • 根据来源不同(s2orcs2ag)处理略有差异。

统计数据

数据集 分割 文档数量 单词数量
s2orc train 8,242,162 36,088,195,908
s2orc valid 51,323 255,139,074
s2ag train 59,382,301 11,009,123,378
s2ag valid 111,228 24,398,512
AI搜集汇总
数据集介绍
main_image_url
构建方式
peS2o数据集源自Semantic Scholar开放研究语料库(S2ORC),经过精心清洗、筛选和格式化,专为语言模型的预训练而设计。该数据集包含约4000万篇开放获取的学术论文,涵盖了从生物学到哲学等多个学科领域。数据集的构建过程包括对论文的语言、内容和格式的严格筛选,确保每篇论文都符合预训练模型的高质量要求。
特点
peS2o数据集的特点在于其广泛覆盖的学科领域和高质量的文本内容。数据集不仅包含了大量的学术论文,还通过先进的自然语言处理技术对文本进行了优化,如去除OCR错误、筛选非英语内容等。此外,数据集还提供了详细的元数据,如论文的发布日期、来源和版本信息,为研究者提供了丰富的研究素材。
使用方法
使用peS2o数据集时,研究者可以通过Hugging Face平台直接访问和下载数据集。数据集中的每篇论文都以字典格式存储,包含文本、发布日期、来源等关键信息。研究者可以利用这些数据进行语言模型的预训练或微调,特别是在需要高质量学术文本支持的场景中。此外,数据集的版本更新和详细的统计信息也为研究者提供了灵活的选择和深入的分析基础。
背景与挑战
背景概述
peS2o数据集是由Allen Institute for AI于2023年发布的一个大规模学术论文数据集,旨在为语言模型的预训练提供高质量的文本资源。该数据集基于Semantic Scholar Open Research Corpus (S2ORC),包含了约4000万篇开放获取的学术论文,涵盖了生物学、化学、工程学、计算机科学、物理学、材料科学、数学、心理学、经济学、政治学、商业、地质学、社会学、地理学、环境科学、艺术、历史和哲学等多个学科领域。peS2o的创建旨在解决学术文本预训练中的数据稀缺问题,并为自然语言处理领域的研究提供丰富的语料支持。该数据集的发布对推动跨学科的语言模型研究具有重要意义。
当前挑战
peS2o数据集在构建过程中面临多重挑战。首先,学术文本的多样性和复杂性使得数据清洗和格式标准化成为一项艰巨任务,尤其是处理OCR错误和非英语文本时。其次,数据过滤过程中需要平衡文本质量与数据量,确保保留的文本既具有代表性又符合预训练需求。此外,数据集的时效性也是一个关键问题,由于学术文献的快速更新,如何保持数据集的知识截止日期与最新研究进展同步是一个持续的挑战。最后,跨学科数据的整合与标注需要大量的领域专业知识,这对数据集的构建团队提出了较高的要求。
常用场景
经典使用场景
peS2o数据集广泛应用于自然语言处理领域,特别是在文本生成和掩码填充任务中。其庞大的学术论文集合为语言模型的预训练提供了丰富的语料库,使得模型能够更好地理解和生成学术文本。通过使用peS2o,研究人员能够在多个学科领域内进行高效的模型训练,从而提升模型在复杂学术语境下的表现。
实际应用
在实际应用中,peS2o数据集被广泛用于开发智能学术助手、自动文献摘要生成系统以及跨学科知识发现工具。通过利用peS2o中的丰富学术资源,这些应用能够更准确地理解和生成学术文本,从而帮助研究人员快速获取和整合跨学科知识,提升科研效率。
衍生相关工作
peS2o数据集衍生了许多经典的自然语言处理研究工作,特别是在学术文本生成和跨学科知识发现领域。例如,基于peS2o的预训练模型在多个学术文本生成任务中取得了显著的效果提升。此外,peS2o还被用于开发跨学科知识图谱,帮助研究人员发现不同学科之间的潜在联系,推动了跨学科研究的深入发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。

github 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录