allenai/peS2o|学术文本预训练数据集|多学科领域数据集
收藏数据集概述
基本信息
- 名称: peS2o (Pretraining Efficiently on S2ORC)
- 许可证: ODC-By
- 任务类别:
- 文本生成
- 填空
- 语言: 英语
- 标签:
- 生物学
- 化学
- 工程学
- 计算机科学
- 物理学
- 材料科学
- 数学
- 心理学
- 经济学
- 政治科学
- 商业
- 地质学
- 社会学
- 地理学
- 环境科学
- 艺术
- 历史
- 哲学
- 大小范围: 10B<n<100B
- 源数据集: allenai/s2orc
数据集内容
- 描述: peS2o 数据集包含约40M篇创意开放获取学术论文,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
- 版本: 提供多个版本,每个版本具有不同的处理和知识截止日期。建议使用最新版本。
文档格式
- 字段:
added
: 文档添加到语料库的日期。created
: 文档首次发表的估计日期。id
: 文档的Semantic Scholar Corpus ID。source
: 文档来源,支持s2orc
和s2ag
两种。text
: 文档文本,段落由两个换行符(`
`)分隔。
version
: peS2o的版本。
peS2o V2 (最新版本)
关键事实
- 知识截止: 2023-01-03
- 文档数量: 38.97M
- 令牌数量: 42.01B
处理
- 新增过滤策略以排除来自可能包含OCR错误源的摘要。
统计数据
数据集 | 分割 | 文档数量 | 单词数量 |
---|---|---|---|
s2orc | train | 8,242,162 | 36,088,195,908 |
s2orc | valid | 51,323 | 255,139,074 |
s2ag | train | 30,569,017 | 5,920,099,207 |
s2ag | valid | 109,709 | 24,029,459 |
peS2o V1
关键事实
- 知识截止: 2023-01-03
- 文档数量: 67.56M
- 令牌数量: 47.37B
处理
- 根据来源不同(
s2orc
或s2ag
)处理略有差异。
统计数据
数据集 | 分割 | 文档数量 | 单词数量 |
---|---|---|---|
s2orc | train | 8,242,162 | 36,088,195,908 |
s2orc | valid | 51,323 | 255,139,074 |
s2ag | train | 59,382,301 | 11,009,123,378 |
s2ag | valid | 111,228 | 24,398,512 |

China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
PoLaRIS Dataset
PoLaRIS数据集是由仁荷大学电气与计算机工程系创建的一个用于海上目标检测和跟踪的多模态数据集,基于Pohang Canal数据集。该数据集包含约36万张图像和19万条标注,涵盖了从大到小的多尺度对象标注,特别适用于海上无人船(USV)的安全导航。数据集通过多模态传感器(如RGB、TIR、LiDAR和Radar)获取数据,并提供了详细的障碍物检测和跟踪的地面真实数据。创建过程中采用了半自动标注方法,确保了标注的准确性和效率。该数据集主要应用于复杂海上环境中的自主导航系统,旨在提高海上无人船的障碍物检测和跟踪能力,从而提升海上安全。
arXiv 收录
MoPho-Det
用于从监控视角检测手机使用行为的数据集。包含22,879张图像和39,534个标注,其中头部标注29,279个,手机标注10,255个,扩展分类任务标注4,079个。数据集经过清洗和校正,具有高质量的头部标注,适用于精确检测用户手机行为和支持基于距离的难样本挖掘。
github 收录
PHEME Dataset
PHEME dataset for Rumour Detection and Veracity Classification
kaggle 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录