allenai/peS2o|学术文本预训练数据集|多学科领域数据集
收藏数据集概述
基本信息
- 名称: peS2o (Pretraining Efficiently on S2ORC)
- 许可证: ODC-By
- 任务类别:
- 文本生成
- 填空
- 语言: 英语
- 标签:
- 生物学
- 化学
- 工程学
- 计算机科学
- 物理学
- 材料科学
- 数学
- 心理学
- 经济学
- 政治科学
- 商业
- 地质学
- 社会学
- 地理学
- 环境科学
- 艺术
- 历史
- 哲学
- 大小范围: 10B<n<100B
- 源数据集: allenai/s2orc
数据集内容
- 描述: peS2o 数据集包含约40M篇创意开放获取学术论文,经过清洗、过滤和格式化,用于语言模型的预训练。该数据集源自 [Semantic Scholar Open Research Corpus][2]。
- 版本: 提供多个版本,每个版本具有不同的处理和知识截止日期。建议使用最新版本。
文档格式
- 字段:
added
: 文档添加到语料库的日期。created
: 文档首次发表的估计日期。id
: 文档的Semantic Scholar Corpus ID。source
: 文档来源,支持s2orc
和s2ag
两种。text
: 文档文本,段落由两个换行符(`
`)分隔。
version
: peS2o的版本。
peS2o V2 (最新版本)
关键事实
- 知识截止: 2023-01-03
- 文档数量: 38.97M
- 令牌数量: 42.01B
处理
- 新增过滤策略以排除来自可能包含OCR错误源的摘要。
统计数据
数据集 | 分割 | 文档数量 | 单词数量 |
---|---|---|---|
s2orc | train | 8,242,162 | 36,088,195,908 |
s2orc | valid | 51,323 | 255,139,074 |
s2ag | train | 30,569,017 | 5,920,099,207 |
s2ag | valid | 109,709 | 24,029,459 |
peS2o V1
关键事实
- 知识截止: 2023-01-03
- 文档数量: 67.56M
- 令牌数量: 47.37B
处理
- 根据来源不同(
s2orc
或s2ag
)处理略有差异。
统计数据
数据集 | 分割 | 文档数量 | 单词数量 |
---|---|---|---|
s2orc | train | 8,242,162 | 36,088,195,908 |
s2orc | valid | 51,323 | 255,139,074 |
s2ag | train | 59,382,301 | 11,009,123,378 |
s2ag | valid | 111,228 | 24,398,512 |

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Breast-Caner-Detection Dataset
该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。
github 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录