中国土壤侵蚀变化数据集(1985-2011)|土壤侵蚀数据集|环境监测数据集
收藏hoskinson-center/proof-pile
`proof-pile`是一个13GB的数学文本预训练数据集,包含83亿个标记(使用`gpt-neox`分词器)。该数据集由多种非正式和正式数学文本来源组成,包括ArXiv.math(10GB)、开源数学教科书(50MB)、形式数学库(500MB)、Math Overflow和Math Stack Exchange(2.5GB)、Wiki风格来源(50MB)以及MATH数据集(6MB)。数据集构建过程可复现,并提供了详细的预处理步骤和过滤条件。
hugging_face 收录
EleutherAI/proof-pile-2
Proof-Pile-2是一个包含550亿个token的数学和科学文档数据集,用于训练Llemma 7B和Llemma 34B模型。该数据集由三个子集组成:arxiv(29B tokens)、open-web-math(15B tokens)和algebraic-stack(11B tokens)。arxiv子集来自RedPajama,open-web-math子集包含互联网上的高质量数学文本,algebraic-stack子集是一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。每个数据行包含文本和元数据。数据集的内容详细列出了AlgebraicStack中各编程语言的token数量。许可证信息未改变原始数据的许可证。版本历史包括v1.1.0和v1.0.0,分别对应不同版本的OpenWebMath。引用部分提供了对整个数据集及其子集的引用格式。
hugging_face 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
ct-scans-of-brain
这是一个包含超过70,000个研究案例的脑部CT扫描数据集,旨在帮助研究人员在医学成像领域进行研究,特别是针对大脑病损的检测和分析,包括脑肿瘤、脑出血和脑癌等五种病损类型。数据集包含有协议和无协议的研究案例,适用于计算机视觉任务。
huggingface 收录