中国教育追踪调查(2014-2015学年)追访
收藏EleutherAI/proof-pile-2
Proof-Pile-2是一个包含550亿个token的数学和科学文档数据集,用于训练Llemma 7B和Llemma 34B模型。该数据集由三个子集组成:arxiv(29B tokens)、open-web-math(15B tokens)和algebraic-stack(11B tokens)。arxiv子集来自RedPajama,open-web-math子集包含互联网上的高质量数学文本,algebraic-stack子集是一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。每个数据行包含文本和元数据。数据集的内容详细列出了AlgebraicStack中各编程语言的token数量。许可证信息未改变原始数据的许可证。版本历史包括v1.1.0和v1.0.0,分别对应不同版本的OpenWebMath。引用部分提供了对整个数据集及其子集的引用格式。
hugging_face 收录
EcoInvent
EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。
www.ecoinvent.org 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
ct-scans-of-brain
这是一个包含超过70,000个研究案例的脑部CT扫描数据集,旨在帮助研究人员在医学成像领域进行研究,特别是针对大脑病损的检测和分析,包括脑肿瘤、脑出血和脑癌等五种病损类型。数据集包含有协议和无协议的研究案例,适用于计算机视觉任务。
huggingface 收录