allenai/peS2o|学术文本预训练数据集|多学科领域数据集
收藏数据集概述
基本信息
- 名称: peS2o (Pretraining Efficiently on S2ORC)
- 许可证: ODC-By
- 任务类别:
- 文本生成
- 填空
- 语言: 英语
- 标签:
- 生物学
- 化学
- 工程学
- 计算机科学
- 物理学
- 材料科学
- 数学
- 心理学
- 经济学
- 政治科学
- 商业
- 地质学
- 社会学
- 地理学
- 环境科学
- 艺术
- 历史
- 哲学
- 大小范围: 10B<n<100B
- 源数据集: allenai/s2orc
数据集内容
- 描述: peS2o 数据集包含约40M篇创意开放获取学术论文,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
- 版本: 提供多个版本,每个版本具有不同的处理和知识截止日期。建议使用最新版本。
文档格式
- 字段:
added: 文档添加到语料库的日期。created: 文档首次发表的估计日期。id: 文档的Semantic Scholar Corpus ID。source: 文档来源,支持s2orc和s2ag两种。text: 文档文本,段落由两个换行符(`
`)分隔。
version: peS2o的版本。
peS2o V2 (最新版本)
关键事实
- 知识截止: 2023-01-03
- 文档数量: 38.97M
- 令牌数量: 42.01B
处理
- 新增过滤策略以排除来自可能包含OCR错误源的摘要。
统计数据
| 数据集 | 分割 | 文档数量 | 单词数量 |
|---|---|---|---|
| s2orc | train | 8,242,162 | 36,088,195,908 |
| s2orc | valid | 51,323 | 255,139,074 |
| s2ag | train | 30,569,017 | 5,920,099,207 |
| s2ag | valid | 109,709 | 24,029,459 |
peS2o V1
关键事实
- 知识截止: 2023-01-03
- 文档数量: 67.56M
- 令牌数量: 47.37B
处理
- 根据来源不同(
s2orc或s2ag)处理略有差异。
统计数据
| 数据集 | 分割 | 文档数量 | 单词数量 |
|---|---|---|---|
| s2orc | train | 8,242,162 | 36,088,195,908 |
| s2orc | valid | 51,323 | 255,139,074 |
| s2ag | train | 59,382,301 | 11,009,123,378 |
| s2ag | valid | 111,228 | 24,398,512 |

AlphaFold Protein Structure Database
AlphaFold是由Google DeepMind开发的AI系统,可从氨基酸序列预测蛋白质的三维结构,其准确性媲美实验方法。Google DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作创建了AlphaFold Protein Structure Database,免费向科学界开放,现已涵盖超过2亿条UniProt蛋白序列,包含人类及47种重要生物的蛋白质组。
alphafold.com 收录
Paper III (Walker et al. 2024)
Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.
DataCite Commons 收录
Other-Animals-10
该数据集包含103张图像,每张图像对应一个动物标签,标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集,用于训练模型。
huggingface 收录
中国区域250米植被覆盖度数据集(2000-2024)
该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。
国家青藏高原科学数据中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
